【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记

《OpenCompass 大模型评测》

文档:OpenCompass大模型评测教程

1、主观评测

在这里插入图片描述

2、提示词工程

在这里插入图片描述
李华每周给2个不同的朋友写一封3页的信,一周写两次。他一年总共写了多少页的信?

李华每周给2个不同的朋友写一封3页的信, 一周写两次。他一年总共写了多少页的信。

问题:李华每周给2个不同的朋友写一封3页的信,一 周写两次。他一年总共写了多少页的信?答案:

问题:李华每周给2个不同的朋友写一封3页的信,一周写两次。 他一年总共写了多少页的信?请你一步一步思考。答案:

这是一道数学题,请在“答案”后给出你的回答:李华每周给2个不同的朋友写一封3页的信,一周写两次。他一年总共写了多少页的信?请你一步一步思考。答案:

3、主流大模型评测框架

在这里插入图片描述

4、大模型评测练习

InternStudio平台中选择A100 (1/4) * 2的配置,镜像选择 Cuda11.7-conda

4.1 激活虚拟环境

conda activate opencompass

4.2 Clone项目代码

git clone https://gitee.com/open-compass/opencompass

4.3 数据集验证

cd opencompass && python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug

4.4 Troubleshooting

(1)评测结果的分数表格中,出现很多数据集没有结果,而且比文档中无结果的数据集条目多很多

“刚开始我们是直接用的之前的机器配置,也就是 A100 (1/4),显存是20G”。

于是就出现了一个问题如图所示:
在这里插入图片描述
可以看到ceval-plant_protectionceval-basic_medicineceval-clinical medicine等数据集都没有评测分数,甚至连后面的metric类型都没有显示出来,而文档中即使没有显示分数的条目也都会显示metric类型,所以我们感觉有点问题;
经过查询资料得知:

“出现许多数据集无评分一般OOM了”。

再次比对视频教程,发现需要使用40G的显存配置;
修改之后,就跟文档中的结果完全一样了:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值