【书生·浦语大模型实战营】第7节：OpenCompass 大模型评测实战（笔记及作业）

最新推荐文章于 2024-05-30 11:27:58 发布

Momosaki

最新推荐文章于 2024-05-30 11:27:58 发布

阅读量418

点赞数 5

分类专栏：书生·浦语大模型实战营第二期文章标签：笔记人工智能

本文链接：https://blog.csdn.net/Momosaki/article/details/138760557

版权

书生·浦语大模型实战营第二期专栏收录该内容

9 篇文章 0 订阅

订阅专栏

【书生·浦语大模型实战营】第7节：OpenCompass 大模型评测实战（笔记及作业）

文章目录

笔记

视频：https://www.bilibili.com/video/BV1Pm41127jU/?spm_id_from=333.788&vd_source=724260feabc8c4fa14ba533aaff72464

文档：https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md

在这里插入图片描述

评测的具体模型类型按照基座模型和对话模型划分

在这里插入图片描述

OpenCompass 采取客观评测与主观评测相结合的方法。针对具有确定性答案的能力维度和场景，通过构造丰富完善的评测集，对模型能力进行综合评价。针对体现模型能力的开放式或半开放式的问题、模型安全问题等，采用主客观相结合的评测方式。

客观评测用定量指标比较模型的输出与标准答案以进行评测，主管评测则是用高性能的大模型模拟人类进行主观打分

作业

使用OpenCompass评测internlm2-chat-1_8b模型在C-Eval数据集上的性能

环境配置

studio-conda -o internlm-base -t opencompass
source activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .

数据准备

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

查看所有和InternLM 及 C-Eval 相关的配置

在这里插入图片描述

实现对internlm2-chat-1_8b模型在C-Eval数据集上的性能评测

python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug

在这里插入图片描述

评测结果

在这里插入图片描述

Momosaki

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【书生·浦语大模型实战营】第7节：OpenCompass 大模型评测实战（笔记及作业）

针对具有确定性答案的能力维度和场景，通过构造丰富完善的评测集，对模型能力进行综合评价。针对体现模型能力的开放式或半开放式的问题、模型安全问题等，采用主客观相结合的评测方式。文档：https://github.com/InternLM/Tutorial/blob/camp2/opencompass/readme.md。客观评测用定量指标比较模型的输出与标准答案以进行评测，主管评测则是用高性能的大模型模拟人类进行主观打分。实现对internlm2-chat-1_8b模型在C-Eval数据集上的性能评测。
复制链接

扫一扫