【书生·浦语大模型实战营】第7节:OpenCompass 大模型评测实战(笔记及作业)
文章目录
笔记
视频:https://www.bilibili.com/video/BV1Pm41127jU/?spm_id_from=333.788&vd_source=724260feabc8c4fa14ba533aaff72464
文档:https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md
评测的具体模型类型按照基座模型和对话模型划分
OpenCompass 采取客观评测与主观评测相结合的方法。针对具有确定性答案的能力维度和场景,通过构造丰富完善的评测集,对模型能力进行综合评价。针对体现模型能力的开放式或半开放式的问题、模型安全问题等,采用主客观相结合的评测方式。
客观评测用定量指标比较模型的输出与标准答案以进行评测,主管评测则是用高性能的大模型模拟人类进行主观打分
作业
使用OpenCompass评测internlm2-chat-1_8b模型在C-Eval数据集上的性能
环境配置
studio-conda -o internlm-base -t opencompass
source activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
数据准备
cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip
查看所有和InternLM 及 C-Eval 相关的配置
-
实现对internlm2-chat-1_8b模型在C-Eval数据集上的性能评测
python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug
评测结果