第六节课 OpenCompass 大模型评测(笔记)

一、关于评测的三个问题?

1.为什么需要评测?

  • 模型选型
  • 模型能力提升
  • 真是应用场景效果评测

2.我们需要测什么?

  • 知识、推理、语言
  • 长文本、智能体、多轮对话
  • 情感、认知、价值观

3.怎么样测试大语言模型

  • 自动化客观评测
  • 人机交互评测
  • 基于大模型的大模型评测

二、我们为什么需要评测?

建立在公平的、全面的统一框架下

可以知道模型的能力边界

三、我们需要评测什么?

四、如何评测大语言模型

1.根据模型

  • 基座模型
  • 对话模型(经过指令微调的模型)

2.根据评测

  • 客观评测(问答题、多选题、判断题/分类题/...)
  • 主观评测(人类评价、模型评价)

3.提示词工程

 

五、主流大模型评测框架

六、OpenCompass 能力框架

Meta官方推荐,唯一由国内开发的大模型评测体系,其他三个分别是HuggingFace、Stanford和Google退出的测评体系。

架构:

OpenCompass会将评测请求切分为多个独立执行的任务,从而最大化利用计算资源。

七、OpenCompass前沿探索

  • 多模态(基于感知与推理将评估维度逐级细分)
  • 法律领域(三维认知维度:法律知识理解、法律知识记忆、法律知识应用)
  • 医疗领域(多来源基准评估维度)

八、大模型评测领域的挑战

  • 缺少高质量中文评测集
  • 难以准确提取答案
  • 能力维度不足
  • 测试集混入训练集
  • 测试标准各异
  • 人工测试成本高昂

  • 25
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值