OpenCompass 大模型评测实战_哔哩哔哩_bilibili
目录
LLM评测的挑战
应用场景千变万化,模型能力持续演进,很难全面地评测
评测成本高,消耗大量算力和人工成本
数据污染,海量训练语料可能包含了评测集
鲁棒,大模型对提示词敏感且输出不稳定
客观评测与主观评测
客观题如客观事实或选择题,主观题可以使用GPT4打分
提示词工程
尽量描述清楚细节,目标明确,给出准确的概念不要歧义,给出思路引导或修改建议等
也可以提供一些few-shot案例,或者使用CoT等
长文本评测
主要是大海捞针,在很长的文本的某处插入一句话,最后根据这段话提问,看模型能不能答对
实践
安装
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
准备数据: 下载数据然后解压
unzip OpenCompassData-core-20231110.zip
查看配置:
python tools/list_configs.py internlm ceval
开始评测
python run.py --datasets ceval_gen --hf-path /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /root/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug
最后会输出每项的分数: