任务描述
- 使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 ceval 数据集上的性能,记录复现过程并截图。
复现步骤
首先创建10%的开发机,配置一下所需环境:
conda create -n opencompass python=3.10
conda activate opencompass
conda install pytorch==2.1.2 torchvision==0.16.2 torchaudio==2.1.2 pytorch-cuda=12.1 -c pytorch -c nvidia -y
# 注意:一定要先 cd /root
cd /root
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
apt-get update
apt-get install cmake
pip install -r requirements.txt
pip install protobuf
解压评测数据集,查看一下 InternLM 及 C-Eval 相关的配置:
cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip
python tools/list_configs.py internlm ceval
配置如下:
打开 opencompass文件夹下configs/models/hf_internlm/的hf_internlm2_chat_1_8b.py并贴入以下代码:
设置环境变量并开始评测,这个过程巨慢!!需要耐心等待一下。
#环境变量配置
export MKL_SERVICE_FORCE_INTEL=1
#或
export MKL_THREADING_LAYER=GNU
python run.py --datasets ceval_gen --models hf_internlm2_chat_1_8b --debug
评测结束。