【书生·浦语大模型实战营】第7节笔记:OpenCompass 大模型评测实战

一、OpenCompass 大模型评测

1.OpenCompass 简介

  • 目的:全面了解大型语言模型的优势和限制,指导改进人机交互,规划模型发展,预防风险。
  • 重要性:尽管成本高昂,但大型语言模型的应用广泛,了解其性能对研究人员和产品开发者至关重要。

2.OpenCompass2.0 特点

  • 开源可复现:公平、公开、可复现的评测方案。
  • 全面的能力维度:五大维度,70+ 数据集,约40万题。
  • 丰富的模型支持:支持20+ HuggingFace 及 API 模型。
  • 分布式高效评测:快速完成评测。
  • 多样化评测范式:支持多种评测方式。
  • 灵活化拓展:易于增加新模型或数据集,自定义任务分割策略。

3.评测对象

  • 基座模型:自监督学习训练,具有文字续写能力。
  • 对话模型:基于基座模型,具有对话能力。

4.工具架构

  • 模型层:评测主要模型种类。
  • 能力层:评测通用能力和特色能力。
  • 方法层:结合客观和主观评测。
  • 工具层:自动化评测功能。

5.设计思路

  • 通用人工智能:面向实际应用的评价体系。
  • 能力维度体系:通用能力和特色能力。

6.评测方法

  • 客观评测:定量指标比较,提示词工程,语境学习。
  • 主观评测:基于受试者判断,真实人类专家与模型打分结合。

二、大模型评测实战

1.快速开始

  • 配置:选择模型和数据集,定义评估策略。
  • 推理与评估:并行推理和评估。
  • 可视化:结果整理,保存为 CSV 和 TXT 文件。

2.实战环境配置

  • 开发机和环境:选择合适镜像和 GPU。
  • 安装:克隆仓库,安装依赖。

3.数据准备

  • 数据集:解压到指定目录。

4.启动评测

  • 命令:使用特定命令进行评测。
  • 使用 OpenCompass 评测 internlm2-chat-1_8b 模型在 C-Eval 数据集上的性能,如图:

 

5.自定义数据集评测

  • 客观数据集:自建步骤。
  • 主观评测:真实对话场景下评估。
  • 尝试构建自定义数据集,并提交至OpenCompass官网。

支持新数据集 — OpenCompass 0.2.4 文档icon-default.png?t=N7T8https://opencompass.readthedocs.io/zh-cn/latest/advanced_guides/new_dataset.html
主观评测指引 — OpenCompass 0.2.4 文档icon-default.png?t=N7T8https://opencompass.readthedocs.io/zh-cn/latest/advanced_guides/subjective_evaluation.html

CompassHubicon-default.png?t=N7T8https://hub.opencompass.org.cn/dataset-submit?lang=%5Bobject%20Object%5D自定义数据集: CompassHub (opencompass.org.cn)

6.数据污染评估

  • 数据污染:检测训练数据中的问题。

数据污染评估 — OpenCompass 0.2.4 文档icon-default.png?t=N7T8https://opencompass-cn.readthedocs.io/zh-cn/latest/advanced_guides/contamination_eval.html 

7.大海捞针测试

  • 测试:测试模型的长文本信息提取能力。

 大海捞针(Needle In A Haystack)实验评估 — OpenCompass 0.2.4 文档icon-default.png?t=N7T8https://opencompass.readthedocs.io/zh-cn/latest/advanced_guides/needleinahaystack_eval.html

8.数据集介绍

  • Skywork/ChineseDomainModelingEval:高质量中文文章,涵盖多个领域。 

9.作业

https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.mdicon-default.png?t=N7T8https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.md

  • 11
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值