1、自报家门,评测基本情况简介
待评测模型:第四课中自家内功心法修炼的法律微调大模型
攻击数据集:OpenCompass 的LawBench
评测平台:OpenCompass
2、废话说再多活总要实操啊
1)因为要用所以要下载和安装OpenCompass
电脑说都装好了,那肯定就是装好了,要是跑不起来只能怪厂家了,这锅我不背
2)看看都测啥,下个测试数据集LawBench
git clone https://github.com/open-compass/LawBench.git
先看看厂家的彩虹攻击能力,一会哭了可别找我说情哈
测试one-shot数据集
3)测下默契值,你就走走心吧,千万别打脸,货真价实的实操
python run.py --datasets lawbench_one_shot_gen_002588 --hf-path D:\workspace\nlp\InternLM2\XTuner-Layer\merged\ --tokenizer-path D:\workspace\nlp\InternLM2\XTuner-Layer\merged\ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug
首次运行失利,一定是他们的问题
是的,是他们的问题,在Windows下运行的默认编码是gbk,而json文件是utf-8格式(怎么改?没有一个棒棒糖我是不会告诉你的)