官方教程:Tutorial/docs/L1/OpenCompass/readme.md at camp3 · InternLM/Tutorial (github.com)
OpenCompass 评测 InternLM-1.8B 实践
- 记录复现过程并截图。
基础任务(完成此任务即完成闯关)
- 使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 ceval 数据集上的性能,记录复现过程并截图。
这里复用了之前30%的cuda11机器,教程使用了10%的机器。
step1:安装compass环境
conda create -n opencompass python=3.10
conda activate opencompass
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
# 注意:一定要先 cd /root
cd /root
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
apt-get update
apt-get install cmake
pip install -r requirements.txt
pip install protobuf
step2:解压评测数据集
cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip
step3:使用配置文件进行测评
编写eval_tutorial_demo.py,放到路径/root/opencompass/configs下:
from mmengine.config import read_base
with read_base():
from .datasets.ceval.ceval_gen import ceval_datasets
from .models.hf_internlm.hf_internlm2_chat_1_8b import models as hf_internlm2_chat_1_8b_models
datasets = ceval_datasets
models = hf_internlm2_chat_1_8b_models
step4:启动测评
cd /root/opencompass
python run.py configs/eval_tutorial_demo.py --debug
结果:
全程大概需要2h,输出保存在output文件夹中,可以自行查看指标
进阶任务(闯关不要求完成此任务)(后续补充)
- 使用 OpenCompass 进行主观评测(选做)
- 使用 OpenCompass 评测 InternLM2-Chat-1.8B 模型使用 LMDeploy部署后在 ceval 数据集上的性能(选做)
- 使用 OpenCompass 进行调用API评测(优秀学员必做)