1.0使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能
首先创建开发机,进行环境安装,
studio-conda -o internlm-base -t opencompass
source activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -r requirements.txt
解压评测数据集到 data/ 处,列出所有跟 InternLM 及 C-Eval 相关的配置,
如果遇到 error,解决方案
pip install protobuf
export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU
正常评测后将会看到
2.0自定义数据集客主观评测并提交至OpenCompass官网
构造新的数据集需要修改至少三个文件,一是opencompass/configs/datasets下面,新建相应的脚本;二是opencompass/opencompass/datasets去构建一个新类,并实现一个load函数,负责把新的数据集以csv/json等格式load进来,并返回DatasetDict形式,传出之后,会在刚才configs里面新建的脚本中拼起来,最终进行append;三是要把这个新类在opencompass/opencompass/datasets/__init__.py中进行import。
参考资料
链接:https://blog.csdn.net/weixin_42296932/article/details/138119933
视频地址:https://www.bilibili.com/video/BV1Pm41127jU/
课程文档:https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md