【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记

songyuc

已于 2024-01-23 01:10:10 修改

阅读量541

点赞数 7

文章标签：学习笔记

于 2024-01-22 16:30:23 首次发布

本文链接：https://blog.csdn.net/songyuc/article/details/135751316

版权

《OpenCompass 大模型评测》

文档：OpenCompass大模型评测教程

1、主观评测

在这里插入图片描述

2、提示词工程

在这里插入图片描述
李华每周给2个不同的朋友写一封3页的信，一周写两次。他一年总共写了多少页的信?

李华每周给2个不同的朋友写一封3页的信，一周写两次。他一年总共写了多少页的信。

问题：李华每周给2个不同的朋友写一封3页的信，一周写两次。他一年总共写了多少页的信？答案：

问题：李华每周给2个不同的朋友写一封3页的信，一周写两次。他一年总共写了多少页的信？请你一步一步思考。答案：

这是一道数学题，请在“答案”后给出你的回答：李华每周给2个不同的朋友写一封3页的信，一周写两次。他一年总共写了多少页的信？请你一步一步思考。答案：

3、主流大模型评测框架

在这里插入图片描述

4、大模型评测练习

在InternStudio平台中选择A100 (1/4) * 2的配置，镜像选择 Cuda11.7-conda；

4.1 激活虚拟环境

conda activate opencompass

4.2 Clone项目代码

git clone https://gitee.com/open-compass/opencompass

4.3 数据集验证

cd opencompass && python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug

4.4 Troubleshooting

（1）评测结果的分数表格中，出现很多数据集没有结果，而且比文档中无结果的数据集条目多很多

“刚开始我们是直接用的之前的机器配置，也就是 A100 (1/4)，显存是20G”。

于是就出现了一个问题如图所示：
在这里插入图片描述
可以看到ceval-plant_protection、ceval-basic_medicine和ceval-clinical medicine等数据集都没有评测分数，甚至连后面的metric类型都没有显示出来，而文档中即使没有显示分数的条目也都会显示metric类型，所以我们感觉有点问题；
经过查询资料得知：