先准备环境,blablablabla,部署环境挺耽误时间的,
接下来开始测试,python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug
忙活半天终于加载起来了,需要再安装,pip install protobuf,同时设置环境变量,
export MKL_SERVICE_FORCE_INTEL=1
数据集的评分跑出来了,如下:
接下来制作自定义的数据集,参考链接,自定义数据集 — OpenCompass 0.2.4 文档,通过通义千问(没办法kimi的200K始终没有批准)上传了一份50MB的关于王阳明的pdf电子书,生成100道关于王阳明的问题,格式如下,
终于做好了100道QA数据集,通义千问也是够可以,一次只能出20道题,必须要不停的说继续才行,chatbot/wangyangming.jsonl at main · dongbeixiaohuo/chatbot · GitHub,主意使用--costom-dataset-path进行加载,
python run.py --custom-dataset-path /root/opencompass/data/wangyangming/wangyangming.jsonl --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug
哈哈,果然用我做的王阳明100QA评测不出来啥玩意儿。