书生浦语大模型实战营第二期第七次课笔记

最新推荐文章于 2024-06-13 11:24:43 发布

SunInCrack

最新推荐文章于 2024-06-13 11:24:43 发布

阅读量178

点赞数 4

文章标签：笔记

本文链接：https://blog.csdn.net/SunInCrack/article/details/138356051

版权

课程视频

课程文档

1. 评测大模型的重要性

全面了解模型：评测有助于全面了解大型语言模型的优势和限制。
人机交互：评测可以指导改进人机交互，设计更好的交互范式。
规划发展：通过评测可以规划模型的未来发展，预防潜在风险。
选择适合的模型：了解不同模型的性能，帮助选择适合的模型。

2. OpenCompass 介绍

OpenCompass：上海人工智能实验室发布的大模型开源开放评测体系。
特点：
- 开源可复现
- 全面的能力维度
- 丰富的模型支持
- 分布式高效评测
- 多样化评测范式
- 灵活化拓展

3. 评测对象

语言大模型：基座模型和对话模型。
多模态大模型：未详细说明，但提及作为评测对象。

4. 工具架构

模型层：评测主要模型种类。
能力层：从通用能力和特色能力两个方面进行评测维度设计。
方法层：采用客观评测与主观评测两种方式。

5. 设计思路

通用人工智能角度：结合学术界和工业界的最佳实践。
能力维度体系：涵盖通用能力和特色能力。

6. 评测方法

客观评测：使用定量指标比较模型输出与标准答案。
主观评测：基于人的主观感受评估模型的真实能力。

7. 快速开始

配置：选择模型和数据集，定义评估策略。
推理与评估：并行推理和评估，衡量输出与标准答案的匹配程度。
可视化：结果整理成表格，保存为 CSV 和 TXT 文件。

8. 环境配置

开发机和 conda 环境：选择合适镜像和GPU资源。
安装：使用studio-conda命令安装OpenCompass环境。

9. 数据准备

数据集：解压评测数据集到指定目录。

10. 启动评测

命令：使用export命令设置环境变量，启动评测过程。

11. 自定义数据集

客观评测：自建客观数据集的步骤。
主观评测：自建主观数据集的步骤。

12. 数据污染评估

数据污染：测试数据与训练数据的重叠问题。

13. 大海捞针测试

长文本信息提取：测试大模型的长文本理解能力。

总结

本节课详细介绍了OpenCompass评测体系，包括其重要性、特点、评测对象、工具架构、设计思路、评测方法、快速开始流程、环境配置、数据准备、启动评测、自定义数据集、数据污染评估以及大海捞针测试。通过这些内容，我们可以了解如何使用OpenCompass进行大模型的评测，以及如何进行环境配置和数据准备。

SunInCrack

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
书生浦语大模型实战营第二期第七次课笔记

上海人工智能实验室发布的大模型开源开放评测体系。特点开源可复现全面的能力维度丰富的模型支持分布式高效评测多样化评测范式灵活化拓展客观评测：自建客观数据集的步骤。主观评测：自建主观数据集的步骤。本节课详细介绍了OpenCompass评测体系，包括其重要性、特点、评测对象、工具架构、设计思路、评测方法、快速开始流程、环境配置、数据准备、启动评测、自定义数据集、数据污染评估以及大海捞针测试。
复制链接

扫一扫