1. 评测大模型的重要性
- 全面了解模型:评测有助于全面了解大型语言模型的优势和限制。
- 人机交互:评测可以指导改进人机交互,设计更好的交互范式。
- 规划发展:通过评测可以规划模型的未来发展,预防潜在风险。
- 选择适合的模型:了解不同模型的性能,帮助选择适合的模型。
2. OpenCompass 介绍
- OpenCompass:上海人工智能实验室发布的大模型开源开放评测体系。
- 特点:
- 开源可复现
- 全面的能力维度
- 丰富的模型支持
- 分布式高效评测
- 多样化评测范式
- 灵活化拓展
3. 评测对象
- 语言大模型:基座模型和对话模型。
- 多模态大模型:未详细说明,但提及作为评测对象。
4. 工具架构
- 模型层:评测主要模型种类。
- 能力层:从通用能力和特色能力两个方面进行评测维度设计。
- 方法层:采用客观评测与主观评测两种方式。
5. 设计思路
- 通用人工智能角度:结合学术界和工业界的最佳实践。
- 能力维度体系:涵盖通用能力和特色能力。
6. 评测方法
- 客观评测:使用定量指标比较模型输出与标准答案。
- 主观评测:基于人的主观感受评估模型的真实能力。
7. 快速开始
- 配置:选择模型和数据集,定义评估策略。
- 推理与评估:并行推理和评估,衡量输出与标准答案的匹配程度。
- 可视化:结果整理成表格,保存为 CSV 和 TXT 文件。
8. 环境配置
- 开发机和 conda 环境:选择合适镜像和GPU资源。
- 安装:使用
studio-conda
命令安装OpenCompass环境。
9. 数据准备
- 数据集:解压评测数据集到指定目录。
10. 启动评测
- 命令:使用
export
命令设置环境变量,启动评测过程。
11. 自定义数据集
- 客观评测:自建客观数据集的步骤。
- 主观评测:自建主观数据集的步骤。
12. 数据污染评估
- 数据污染:测试数据与训练数据的重叠问题。
13. 大海捞针测试
- 长文本信息提取:测试大模型的长文本理解能力。
总结
本节课详细介绍了OpenCompass评测体系,包括其重要性、特点、评测对象、工具架构、设计思路、评测方法、快速开始流程、环境配置、数据准备、启动评测、自定义数据集、数据污染评估以及大海捞针测试。通过这些内容,我们可以了解如何使用OpenCompass进行大模型的评测,以及如何进行环境配置和数据准备。