书生·浦语(7)笔记&作业

书生·浦语第七课

《OpenCompass 大模型评测实战》
链接:https://www.bilibili.com/video/BV1Pm41127jU/?vd_source=7809d8a73aa5f844d7fb22527d673684

课堂笔记

  • 为什么需要大模型能力评测?
  1. 大模型在不断增加能力维度(数学计算、逻辑推理、代码能力等),需要进行全方位的评测
  2. 在专业领域中应用时需要准确评估行业适用性
  3. 促进中文评测能力的发展
  4. 更好地发现模型的不足,以研究针对性的策略
  • 大模型评测面临的挑战
  1. 应用场景多,模型演进快
  2. 评测成本高(硬件成本、人工成本)
  3. 海量预料带来的评测集污染
  4. 大模型对提示词十分敏感
  5. 多次采样情况下模型性能不稳定
  • OpenCompass介绍
    在这里插入图片描述根据模型类型的不同划分:
    基座模型:使用海量数据进行无监督训练
    开源模型:使用GPU、推理加速进行本地推理
    API模型:

客观评测:选择题选择
主观评测:含人类评价(成本高)和模型评价(比如使用chatgpt4帮忙打分和比较)

长文本评测:很大很多文档中插入少量其他信息,看看能不能大海捞针该信息

有数据污染检查、模型推理的接入、长文本能力评测、双语主管评测

评测流水线:
在这里插入图片描述在这里插入图片描述自研评测数据集
在这里插入图片描述

作业

使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能

  1. 安装环境
    在这里插入图片描述2. 准备评测数据集

在这里插入图片描述3. 进行评测
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值