大模型学习与实践笔记(十)

一、模型测评的意义

二、如何对模型进行测评

三、OpenCompass 评测流水线设计

四、大模型评测带来的挑战

五、OpenCompass 评测示例

1.多模态

优势:

1.基于感知与推理,将评估维度逐级细分

2.约3000 道单选题,覆盖目标检测,文本识别,动作识别,图像理解,关系推理等20个细粒度评估维度

2.法律

优势:

1.三级认知维度(法律知识理解,法律知识记忆,法律知识应用)

2.20个法律任务,10000到测评问题,覆盖多领域NLP 任务

3.医学

优势:

1.多来源基准评估维度

2.基于医学知识问答,医学语言生成,复杂医学推理,医学语言理解,医疗安全与伦理,9个公开数据集,11个自建数据集

  • 9
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值