书生·浦语大模型--第六节课笔记&作业--OpenCompass大模型评测

最新推荐文章于 2024-08-06 13:52:03 发布

李日音

最新推荐文章于 2024-08-06 13:52:03 发布

阅读量453

点赞数 8

分类专栏： InternLM大模型文章标签：笔记 langchain 语言模型 chatgpt

本文链接：https://blog.csdn.net/lalala12ll/article/details/135856497

版权

InternLM大模型专栏收录该内容

9 篇文章 0 订阅

订阅专栏

在这里插入图片描述

文章目录

OpenCompass评测框架
实战&基础作业

为什么需要评测？
统一的模型评测
在这里插入图片描述

如何评测？
基座模型需要加上额外的提示
在这里插入图片描述

客观评测：只要回答包括北京就可以认为正确
在这里插入图片描述

主观评测：创作类问题。人工评测不现实，用模型来评测模型，如GPT4作为裁判
在这里插入图片描述

OpenCompass评测框架

在这里插入图片描述

实战&基础作业

安装

conda create --name opencompass --clone=/root/share/conda_envs/internlm-base
source activate opencompass
git clone https://github.com/open-compass/opencompass
cd opencompass
pip install -e .

# 解压评测数据集到 data/ 处
cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

# 将会在opencompass下看到data文件夹

查看支持的数据集和模型

# 列出所有跟 internlm 及 ceval 相关的配置
python tools/list_configs.py internlm ceval

在这里插入图片描述

启动评测

python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug

--datasets ceval_gen \
--hf-path /share/temp/model_repos/internlm-chat-7b/ \  # HuggingFace 模型路径
--tokenizer-path /share/temp/model_repos/internlm-chat-7b/ \  # HuggingFace tokenizer 路径（如果与模型路径相同，可以省略）
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \  # 构建 tokenizer 的参数
--model-kwargs device_map='auto' trust_remote_code=True \  # 构建模型的参数
--max-seq-len 2048 \  # 模型可以接受的最大序列长度
--max-out-len 16 \  # 生成的最大 token 数
--batch-size 2  \  # 批量大小
--num-gpus 1  # 运行模型所需的 GPU 数量
--debug

在这里插入图片描述
结果

李日音

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
书生·浦语大模型--第六节课笔记&作业--OpenCompass大模型评测

为什么需要评测？统一的模型评测如何评测？基座模型需要加上额外的提示客观评测：只要回答包括北京就可以认为正确主观评测：创作类问题。人工评测不现实，用模型来评测模型，如GPT4作为裁判。
复制链接

扫一扫

专栏目录