OpenCompass 大模型评测实战（作业）

墓袖远笺

已于 2024-04-25 21:27:36 修改

阅读量380

点赞数 8

文章标签：学习

于 2024-04-25 21:24:46 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80703617/article/details/138199773

版权

本文详细介绍了如何使用OpenCompass评估InternLM模型在C-Eval数据集上的性能，包括环境配置、错误解决方法，以及如何自定义数据集并提交至OpenCompass平台的过程。附有相关教程链接和参考资源。

摘要由CSDN通过智能技术生成

1.0使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能

首先创建开发机，进行环境安装，

studio-conda -o internlm-base -t opencompass
source activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -r requirements.txt

解压评测数据集到 data/ 处，列出所有跟 InternLM 及 C-Eval 相关的配置，

如果遇到 error，解决方案

pip install protobuf
export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU

正常评测后将会看到

2.0自定义数据集客主观评测并提交至OpenCompass官网

构造新的数据集需要修改至少三个文件，一是opencompass/configs/datasets下面，新建相应的脚本；二是opencompass/opencompass/datasets去构建一个新类，并实现一个load函数，负责把新的数据集以csv/json等格式load进来，并返回DatasetDict形式，传出之后，会在刚才configs里面新建的脚本中拼起来，最终进行append；三是要把这个新类在opencompass/opencompass/datasets/__init__.py中进行import。

参考资料

链接：https://blog.csdn.net/weixin_42296932/article/details/138119933

视频地址：https://www.bilibili.com/video/BV1Pm41127jU/

课程文档：https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md

提交指南：OpenCompass平台指引 | 贡献数据集

墓袖远笺 CSDN认证博客专家 CSDN认证企业博客

码龄1年

13: 原创

146万+: 周排名

87万+: 总排名

6260: 访问

: 等级

236: 积分

42: 粉丝

104: 获赞

7: 评论

88: 收藏

私信

关注

热门文章

最新评论

XTuner 微调 LLM：1.8B、多模态
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
OpenCompass 大模型评测实战（作业）
普通网友: 写的真好，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Lagent & AgentLego 智能体应用搭建(笔记）
CSDN-Ada助手: 恭喜您写了第10篇博客！标题看起来很有深度，内容也充满了学术气息。希望您能继续坚持创作，分享更多有趣的内容。或许下一步可以尝试结合案例分析或者实际操作，让读者更易于理解和实践。期待您的更多精彩文章！
Lagent & AgentLego 智能体应用搭建（作业）
CSDN-Ada助手: 恭喜您第11篇博客《Lagent & AgentLego 智能体应用搭建（作业）》发表成功！您的持续创作精神令人钦佩。下一步建议可以考虑深入探讨智能体应用的实际应用场景，或者分享一些关于搭建过程中的技术难点和解决方法，让读者更深入地了解这一主题。期待您的更多精彩作品！
OpenCompass 大模型评测实战（笔记）
CSDN-Ada助手: 恭喜您发布第12篇博客《OpenCompass 大模型评测实战（笔记）》，内容精彩且实用。希望您能继续保持创作的热情和坚持，不断分享有价值的内容给读者。在下一篇博客中，或许可以尝试分享一些关于模型优化或者应用场景的实践经验，以便读者能够更深入地了解相关领域知识。期待您更多精彩的文章！

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。