书生·浦语大模型实战营笔记-第六节 OpenCompass 大模型评测

最新推荐文章于 2024-06-24 10:42:23 发布

biscuit279

最新推荐文章于 2024-06-24 10:42:23 发布

阅读量567

点赞数 7

文章标签：笔记

本文链接：https://blog.csdn.net/qq_46212981/article/details/135742273

版权

书生·浦语大模型实战营笔记

第六节 OpenCompass 大模型评测

文章目录

书生·浦语大模型实战营笔记
前言
一、模型评测
二、OpenCompass评测框架
总结

前言

提示：这里可以添加本文要记录的大概内容：

介绍大模型评测的基本知识，OpenCompass工具介绍，并实现一个评测的demo

提示：以下是本篇文章正文内容，下面案例可供参考

一、模型评测

1.为什么需要评测

公平统一的了解模型的效果
在这里插入图片描述

2.测评的维度

知识语言推理、情感倾向、长文本生成、agent、垂直领域问答
在这里插入图片描述

3.如何进行评测

基座模型和微调后的模型有所不同
客观评测和主观评测（人工评价和模型评价）
提示词工程：换prompt看是否还能答对

二、OpenCompass评测框架

1.主流的大模型评测框架

在这里插入图片描述

2.OpenCompass

成熟完善的测评平台架构
丰富的模型支持
成熟的流水线设计：开源模型和API模型都可以测评，易于拓展到自己的模型和数据集
有模型能力榜单
多模态模型有MMBench框架
专家领域也有特有的评测集

三、大模型评测demo

1.环境安装与数据准备

首先准备环境

conda create --name opencompass --clone=/root/share/conda_envs/internlm-base # 创建环境
conda activate opencompass # 激活环境

随后下载安装opencompass项目：

git clone https://github.com/open-compass/opencompass # 下载opencompass项目
pip install -e . # 安装opencompass项目

git连接不稳定，报错HTTP503，选择下载zip包之后上传到开发机，解压

unzip opencompass-main.zip
cd opencompass-main
pip install -e .

数据准备：

cp /share/temp/datasets/OpenCompassData-core-20231110.zip ./  # 拷贝数据
unzip OpenCompassData-core-20231110.zip # 解压

查看支持的数据集和模型

python tools/list_configs.py internlm ceval

在这里插入图片描述

2.启动测评

python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug

分别指定了hf格式的模型路径、hf格式的tokenizer路径，tokenizer参数，模型参数，最大序列长度，最大token数量，batch大小，GPU数量，debug模型

也可以用python run.py configs/xxxx.py，现将model，Dataset，infer写好，直接运行

运行结束后，可以再output/default下找到一个用时间命名的文件夹，里面存放了模型的评估结果，下图展示了单个实验的汇总评估结果。
在这里插入图片描述

总结

主要介绍了模型评测的基础知识，opencompass工具的使用方法，随后实现了internlm7b模型在C-Eval数据集下的效果。

biscuit279

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
书生·浦语大模型实战营笔记-第六节 OpenCompass 大模型评测

介绍大模型评测的基本知识，OpenCompass工具介绍，并实现一个评测的demo提示：以下是本篇文章正文内容，下面案例可供参考主要介绍了模型评测的基础知识，opencompass工具的使用方法，随后实现了internlm7b模型在C-Eval数据集下的效果。
复制链接

扫一扫