第七课:轻松玩转书生·浦语OpenCompass 大模型评测实战|笔记|作业

视频链接:OpenCompass 大模型评测实战_哔哩哔哩_bilibili

基础作业

  • 使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能

进阶作业

  • 将自定义数据集提交至OpenCompass官网

笔记:

OpenCompass是一个评测平台,中文名称叫做:司南

一、为何要做大模型评测 -- 通过评测可以促进模型的发展

二、大模型评测中面临的挑战

三、OpenCompass 2.0开源历程以及应用情况

四、OpenCompass如何评测大模型

        1、根据模型类别(基座模型、对话模型、公开权重的开源模型、API模型)

        2、客观与主观评测

        3、增加一些扩展例如提示词工程

        4、长文本评测(大海捞针)

OpenCompass汇集了社区的力量(工具-基准-榜单 三位一体,形成一个 闭环)

其中CompassRank是一个中立全面的性能榜单

CompassKit是一个大模型评测全栈工具链,例如评测时,如果HF推理速度如果比较慢,可以支持直接更换模型推理后端,如LMDeploy,vLLM,可以加快推理速度。

OpenCompass具有评测流水线,区别于其他评测体系的重要的方面。

CompassHub是一个高质量评测基准社区,开源开放,共建共享

OpenCompass2.0 能力维度全面升级,并且自研了很多数据集,来评测模型的各种能力

具体如下:

MathBench:多层次数学能力评测基准

CIBench:代码解释器能力评测基准

T-Eval:大模型细粒度工具能力评测基准

OpenCompass还与各个行业垂直领域建立合作

作业:

使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能

1、创建Cuda11.7,10% A100 GPU的开发机

2、创建OpenCompass相关虚拟环境,克隆opencompass源码,并安装依赖

3、准备数据,解压评测数据集到 data/ 处

4、查看支持的数据集和模型,列出所有跟 InternLM 及 C-Eval 相关的配置

5、启动评测

评测完成后,结果如下:

将自定义数据集提交至OpenCompass官网

构造新的数据集需要修改至少三个文件,一是opencompass/configs/datasets下面,新建相应的脚本;二是opencompass/opencompass/datasets去构建一个新类,并实现一个load函数,负责把新的数据集以csv/json等格式load进来,并返回DatasetDict形式,传出之后,会在刚才configs里面新建的脚本中拼起来,最终进行append;三是要把这个新类在opencompass/opencompass/datasets/__init__.py中进行import。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值