模型的评估
评估数据集(gsm8k),之所以选择gsm8k是因为我们想检测一下微调之后模型的推理能力,并且gsm8k在很多篇大模型相关论文中均用来评估性能,说明该数据集的题目具有较好的区分性。
CUDA_VISIBLE_DEVICES=0 swift eval \
--model_type 'deepseek-7b-chat'\
--eval_dataset gsm8k \
--eval_limit 10
CUDA_VISIBLE_DEVICES=0 swift eval --ckpt_dir checkpoint-100 \
--model_type 'deepseek-math-7b-instruct'\
--eval_dataset gsm8k \
--eval_limit 10 \
--merge_lora true