第三期书生大模型实战营——OpenCompass 评测 InternLM-1.8B 实践

God Catlove7

于 2024-08-18 20:15:28 发布

阅读量62

点赞数 5

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_63629606/article/details/141304640

版权

基础任务

使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 ceval 数据集上的性能，记录复现过程并截图。

配置：这是评估工作的起点，需要设定评估的模型、数据集、评估策略和计算后端，以及定义结果展示的方式。

推理与评估：OpenCompass将对模型和数据集进行并行推理和评估。推理阶段生成模型输出，评估阶段比较输出与标准答案。

可视化：评估完成后，结果将以表格形式呈现，并保存为CSV和TXT文件。

数据准备

解压评测数据集到指定目录。
确保数据集路径与OpenCompass配置一致。

配置文件和模型列表

使用list_configs.py脚本列出与InternLM和C-Eval相关的配置文件。
根据需要选择合适的模型配置。

启动评测

编辑模型配置文件，指定模型路径、分词器路径等参数。
使用命令行或配置文件启动评测过程，可以首先使用--debug模式检查问题。
评测完成后，结果将在控制台输出并保存到指定目录。

评测结果
评测完成后，控制台将显示每个数据集的版本、指标、模式和模型性能。
结果以表格形式展示，包括准确率等关键指标。

关注

5
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
第三期书生大模型实战营——OpenCompass 评测 InternLM-1.8B 实践

OpenCompass将对模型和数据集进行并行推理和评估。推理阶段生成模型输出，评估阶段比较输出与标准答案。：这是评估工作的起点，需要设定评估的模型、数据集、评估策略和计算后端，以及定义结果展示的方式。：评估完成后，结果将以表格形式呈现，并保存为CSV和TXT文件。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。