【AI大模型开发者指南】书生·浦语OpenCompass模型评测实战
核心要素
OpenCompass延续了社区一贯风格,包含以下几个要素:
- 模型
- 数据集
- 配置文件
基于以上三要素,即可实现基于数据集的LLM测评
前期准备
OpenCompass基于LMDeploy使用,必须先确保LMDeploy正常使用!!!
数据集
OpenCompass提供了准备好的数据集
cp /share/temp/datasets/OpenCompassData-core-20231110.zip .
unzip ./OpenCompassData-core-20231110.zip
工具包
准备好数据集后,下载OpenCompass工具包并安装
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
实战
OpenCompass提供了非常简便的使用风格,一行命令,即可实现大模型测评
python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug
其中只需要注意修改--hf-path
和--tokenizer-path
两个参数
一个是模型,另一个是分词器
等待一段时间后
第一次运行可能会出现“No predictions found”
这种情况需要排查lmdeploy是否可以正常使用,此外还需要根据提示安装各类包,例如prettytable、evaluate等
再次运行
运行成功
测评结果如上