书生浦语大模型实战营第二期 第七次课笔记

课程视频

课程文档

1. 评测大模型的重要性

  • 全面了解模型:评测有助于全面了解大型语言模型的优势和限制。
  • 人机交互:评测可以指导改进人机交互,设计更好的交互范式。
  • 规划发展:通过评测可以规划模型的未来发展,预防潜在风险。
  • 选择适合的模型:了解不同模型的性能,帮助选择适合的模型。

2. OpenCompass 介绍

  • OpenCompass:上海人工智能实验室发布的大模型开源开放评测体系。
  • 特点
    • 开源可复现
    • 全面的能力维度
    • 丰富的模型支持
    • 分布式高效评测
    • 多样化评测范式
    • 灵活化拓展

3. 评测对象

  • 语言大模型:基座模型和对话模型。
  • 多模态大模型:未详细说明,但提及作为评测对象。

4. 工具架构

  • 模型层:评测主要模型种类。
  • 能力层:从通用能力和特色能力两个方面进行评测维度设计。
  • 方法层:采用客观评测与主观评测两种方式。

5. 设计思路

  • 通用人工智能角度:结合学术界和工业界的最佳实践。
  • 能力维度体系:涵盖通用能力和特色能力。

6. 评测方法

  • 客观评测:使用定量指标比较模型输出与标准答案。
  • 主观评测:基于人的主观感受评估模型的真实能力。

7. 快速开始

  • 配置:选择模型和数据集,定义评估策略。
  • 推理与评估:并行推理和评估,衡量输出与标准答案的匹配程度。
  • 可视化:结果整理成表格,保存为 CSV 和 TXT 文件。

8. 环境配置

  • 开发机和 conda 环境:选择合适镜像和GPU资源。
  • 安装:使用studio-conda命令安装OpenCompass环境。

9. 数据准备

  • 数据集:解压评测数据集到指定目录。

10. 启动评测

  • 命令:使用export命令设置环境变量,启动评测过程。

11. 自定义数据集

  • 客观评测:自建客观数据集的步骤。
  • 主观评测:自建主观数据集的步骤。

12. 数据污染评估

  • 数据污染:测试数据与训练数据的重叠问题。

13. 大海捞针测试

  • 长文本信息提取:测试大模型的长文本理解能力。

总结

本节课详细介绍了OpenCompass评测体系,包括其重要性、特点、评测对象、工具架构、设计思路、评测方法、快速开始流程、环境配置、数据准备、启动评测、自定义数据集、数据污染评估以及大海捞针测试。通过这些内容,我们可以了解如何使用OpenCompass进行大模型的评测,以及如何进行环境配置和数据准备。

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值