OpenCompass - 大模型评测

最新推荐文章于 2025-03-12 10:42:28 发布

编程乐园

最新推荐文章于 2025-03-12 10:42:28 发布

阅读量2.2k

点赞数 23

分类专栏： LLM & AIGC 文章标签： OpenCompass 评测大模型数据模型

本文链接：https://blog.csdn.net/lovechris00/article/details/140458635

版权

LLM & AIGC 专栏收录该内容

161 篇文章

订阅专栏

在这里插入图片描述

一、关于 OpenCompass

文档： https://opencompass.org.cn/doc
github : https://github.com/open-compass/OpenCompass/
LeaderBoard (CompassRank) : https://rank.opencompass.org.cn/home

概览

在这里插入图片描述

在 OpenCompass 中评估一个模型通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化。

配置：这是整个工作流的起点。您需要配置整个评估过程，选择要评估的模型和数据集。此外，还可以选择评估策略、计算后端等，并定义显示结果的方式。

推理与评估：在这个阶段，OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出，而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率，但请注意，如果计算资源有限，这种策略可能会使评测变得更慢。如果需要了解该问题及解决方案，可以参考 FAQ: 效率。

可视化：评估完成后，OpenCompass 将结果整理成易读的表格，并将其保存为 CSV 和 TXT 文件。你也可以激活飞书状态上报功能，此后可以在飞书客户端中及时获得评测状态报告。

组成

OpenCompass 司南 2.0 大模型评测体系，主要由三大核心模块构建而成：CompassKit、CompassHub以及CompassRank。

CompassRank 系统进行了重大革新与提升，现已成为一个兼容并蓄的排行榜体系，不仅囊括了开源基准测试项目，还包含了私有基准测试。此番升级极大地拓宽了对行业内各类模型进行全面而深入测评的可能性。

CompassHub 创新性地推出了一个基准测试资源导航平台，其设计初衷旨在简化和加快研究人员及行业从业者在多样化的基准测试库中进行搜索与利用的过程。
为了让更多独具特色的基准测试成果得以在业内广泛传播和应用，我们热忱欢迎各位将自定义的基准数据贡献至CompassHub平台。只需轻点鼠标，通过访问这里，即可启动提交流程。

CompassKit 是一系列专为大型语言模型和大型视觉-语言模型打造的强大评估工具合集，它所提供的全面评测工具集能够有效地对这些复杂模型的功能性能进行精准测量和科学评估。
在此，我们诚挚邀请您在学术研究或产品研发过程中积极尝试运用我们的工具包，以助您取得更加丰硕的研究成果和产品优化效果。

评测对象

本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。

基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型（如OpenAI的GPT-3，Meta的LLaMA），往往具有强大的文字续写能力。
对话模型：一般是在的基座模型的基础上，经过指令微调或人类偏好对齐获得的模型（如OpenAI的ChatGPT、上海人工智能实验室的书生·浦语），能理解人类指令，具有较强的对话能力。

工具架构

在这里插入图片描述

模型层：大模型评测所涉及的主要模型种类，OpenCompass以基座模型和对话模型作为重点评测对象。
能力层：OpenCompass从本方案从通用能力和特色能力两个方面来进行评测维度设计。在模型通用能力方面，从语言、知识、理解、推理、安全等多个能力维度进行评测。在特色能力方面，从长文本、代码、工具、知识增强等维度进行评测。
方法层：OpenCompass采用客观评测与主观评测两种评测方式。客观评测能便捷地评估模型在具有确定答案（如选择，填空，封闭式问答等）的任务上的能力，主观评测能评估用户对模型回复的真实满意度，OpenCompass采用基于模型辅助的主观评测和基于人类反馈的主观评测两种方式。
工具层：OpenCompass提供丰富的功能支持自动化地开展大语言模型的高效评测。包括分布式评测技术，提示词工程，对接评测数据库，评测榜单发布，评测报告生成等诸多功能。

能力维度

设计思路

为准确、全面、系统化地评估大语言模型的能力，OpenCompass从通用人工智能的角度出发，结合学术界的前沿进展和工业界的最佳实践，提出一套面向实际应用的模型能力评价体系。OpenCompass能力维度体系涵盖通用能力和特色能力两大部分。

通用能力

通用能力涵盖学科综合能力、知识能力、语言能力、理解能力、推理能力、安全能力，共计六大维度构造立体全面的模型能力评价体系。

学科综合能力

该维度旨在从人类成长角度，借鉴教育学中的分类逻辑，从学科综合能力层面为模型能力评测提供维度支撑。本维度的核心思路是从义务教育、高等教育以及职业教育等角度，通过对各级学科进行分类，构建完整的学科能力评测方案。

知识能力

知识能力具体衡量模型对于各类知识的掌握情况，包括但不限于社会常识、专业领域知识等。该能力项希望模型能准确、完善的回答各类知识性问题。

推理能力

推理能力是通用人工智能的重要能力维度，该维度旨在系统性评估模型的推理能力，包括但不限于数学计算能力，逻辑推理能力，因果推断能力，代码生成与修改能力等。

理解能力

理解能力旨在评估模型对文字的理解能力，包括不限于：

修辞手法理解与分析：理解文字中使用的各类修辞手法，能对相关修辞手法进行分析与解释。
文字内容总结：针对给定内容进行内容总结和信息抽取。
文字内容创作：围绕给定的主题或要求进行开放式或半开放式的内容创作。

语言能力

语言能力旨在评估模型在语言先验上的表现，该维度能力包括但不限于：

字词理解与生成：从字词层面理解语言，并能完成诸如字词识别与分类，字词含义解释，字词生成等任务。
语法理解与修改：理解文字中的语法，并能错误语法表达进行识别和修改。
文字跨语言翻译：针对给定的源语言，翻译到目标语言。在多语种能力维度评估现有大模型的能力。

安全能力

OpenCompass结合大语言模型的技术特点，对模型输出是否合法合规、安全无害设计相应维度进行评测，助力安全、负责任的大模型研发。改维度能力包括但不限于：

公平性
合法性
无害性
伦理道德
保护隐私

评测方法

OpenCompass采取客观评测与主观评测相结合的方法。针对具有确定性答案的能力维度和场景，通过构造丰富完善的评测集，对模型能力进行综合评价。针对体现模型能力的开放式或半开放式的问题、模型安全问题等，采用主客观相结合的评测方式。

客观评测

针对具有标准答案的客观问题，我们可以我们可以通过使用定量指标比较模型的输出与标准答案的差异，并根据结果衡量模型的性能。同时，由于大语言模型输出自由度较高，在评测阶段，我们需要对其输入和输出作一定的规范和设计，尽可能减少噪声输出在评测阶段的影响，才能对模型的能力有更加完整和客观的评价。

为了更好地激发出模型在题目测试领域的能力，并引导模型按照一定的模板输出答案，OpenCompass采用提示词工程（prompt engineering）和语境学习（in-context learning）进行客观评测。

在客观评测的具体实践中，我们通常采用下列两种方式进行模型输出结果的评测：

判别式评测：该评测方式基于将问题与候选答案组合在一起，计算模型在所有组合上的困惑度（perplexity），并选择困惑度最小的答案作为模型的最终输出。例如，若模型在 问题? 答案1 上的困惑度为 0.1，在 问题? 答案2 上的困惑度为 0.2，最终我们会选择 答案1 作为模型的输出。
生成式评测：该评测方式主要用于生成类任务，如语言翻译、程序生成、逻辑分析题等。具体实践时，使用问题作为模型的原始输入，并留白答案区域待模型进行后续补全。我们通常还需要对其输出进行后处理，以保证输出满足数据集的要求。

主观评测(即将发布)

语言表达生动精彩，变化丰富，大量的场景和能力无法凭借客观指标进行评测。针对如模型安全和模型语言能力的评测，以人的主观感受为主的评测更能体现模型的真实能力，并更符合大模型的实际使用场景。

OpenCompass采取的主观评测方案是指借助受试者的主观判断对具有对话能力的大语言模型进行能力评测。在具体实践中，我们提前基于模型的能力维度构建主观测试问题集合，并将不同模型对于同一问题的不同回复展现给受试者，收集受试者基于主观感受的评分。由于主观测试成本高昂，本方案同时也采用使用性能优异的大语言模拟人类进行主观打分。在实际评测中，本文将采用真实人类专家的主观评测与基于模型打分的主观评测相结合的方式开展模型能力评估。

在具体开展主观评测时，OpenComapss采用单模型回复满意度统计和多模型满意度比较两种方式开展具体的评测工作。

特点

OpenCompass 是面向大模型评测的一站式平台。其主要特点如下：

开源可复现：提供公平、公开、可复现的大模型评测方案
全面的能力维度：五大维度设计，提供 70+ 个数据集约 40 万题的的模型评测方案，全面评估模型能力
丰富的模型支持：已支持 20+ HuggingFace 及 API 模型
分布式高效评测：一行命令实现任务分割和分布式评测，数小时即可完成千亿模型全量评测
多样化评测范式：支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板，轻松激发各种模型最大性能
灵活化拓展：想增加新模型或数据集？想要自定义更高级的任务分割策略，甚至接入新的集群管理系统？OpenCompass 的一切均可轻松扩展！

路线图 🔜

主观评测
- 发布主观评测榜单
- 发布主观评测数据集
长文本
- 支持广泛的长文本评测集
- 发布长文本评测榜单
代码能力
- 发布代码能力评测榜单
- 提供非Python语言的评测服务
智能体
- 支持丰富的智能体方案
- 提供智能体评测榜单
鲁棒性
- 支持各类攻击方法

二、安装 🛠️

下面展示了快速安装以及准备数据集的步骤。

1、环境配置💻

面向开源模型的GPU环境

conda create --name opencompass python=3.10 pytorch torchvision pytorch-cuda -c nvidia -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .

面向API模型测试的CPU环境

conda create -n opencompass python=3.10 pytorch torchvision torchaudio cpuonly -c pytorch -y
conda activate opencompass
git clone https://github.com/open-compass/opencompass opencompass
cd opencompass
pip install -e .
# 如果需要使用各个API模型，请 `pip install -r requirements/api.txt` 安装API模型的相关依赖

2、数据准备📂

# 下载数据集到 data/ 处
wget https://github.com/open-compass/opencompass/releases/download/0.2.2.rc1/OpenCompassData-core-20240207.zip
unzip OpenCompassData-core-20240207.zip

有部分第三方功能,如 Humaneval 以及 Llama,可能需要额外步骤才能正常运行，详细步骤请参考安装指南。

三、评测 🏗️ ️

确保按照上述步骤正确安装 OpenCompass 并准备好数据集后，可以通过以下命令评测 LLaMA-7b 模型在 MMLU 和 C-Eval 数据集上的性能：

python run.py --models hf_llama_7b --datasets mmlu_ppl ceval_ppl

另外，如果想使用除了 HuggingFace 外的推理后端进行加速评测，如 LMDeploy 或 vLLM，可以通过以下命令。

使用前请确保您已经安装了相应后端的软件包，以及模型支持使用该后端进行加速推理，更多内容见推理加速后端文档，下面以LMDeploy为例：

python run.py --models hf_llama_7b --datasets mmlu_ppl ceval_ppl -a lmdeploy

OpenCompass 预定义了许多模型和数据集的配置，你可以通过工具列出所有可用的模型和数据集配置。

# 列出所有配置
python tools/list_configs.py
# 列出所有跟 llama 及 mmlu 相关的配置
python tools/list_configs.py llama mmlu

你也可以通过命令行去评测其它 HuggingFace 模型。同样以 LLaMA-7b 为例：

python run.py --datasets ceval_ppl mmlu_ppl --hf-type base --hf-path huggyllama/llama-7b

通过命令行或配置文件，OpenCompass 还支持评测 API 或自定义模型，以及更多样化的评测策略。请阅读快速开始了解如何运行一个评测任务。

更多教程请查看我们的文档。

四、数据集 & 模型支持 📖

详见：https://github.com/open-compass/opencompass/blob/main/README_zh-CN.md#-数据集支持

语言 | 知识 | 推理 | 考试

| - | - |-
字词释义
- WiC
- SummEdits
- 成语习语
- CHID

语义相似度
- AFQMC
- BUSTM
- 指代消解
- CLUEWSC
- WSC
- WinoGrande
翻译
- Flores
- IWSLT2017
- 多语种问答
- TyDi-QA
- XCOPA
多语种总结
- XLSum | 知识问答
- BoolQ
- CommonSenseQA
- NaturalQuestions
- TriviaQA | 文本蕴含
- CMNLI
- OCNLI
- OCNLI_FC
- AX-b
- AX-g
- CB
- RTE
- ANLI

常识推理
- StoryCloze
- COPA
- ReCoRD
- HellaSwag
- PIQA
- SIQA

数学推理
- MATH
- GSM8K

定理应用
- TheoremQA
- StrategyQA
- SciBench

综合推理
- BBH | 初中/高中/大学/职业考试
- C-Eval
- AGIEval
- MMLU
- GAOKAO-Bench
- CMMLU
- ARC
- Xiezhi

医学考试
- CMB

理解 | 长文本 | 安全 | 代码

| - | - |-
阅读理解
- C3
- CMRC
- DRCD
- MultiRC
- RACE
- DROP
- OpenBookQA
- SQuAD2.0

内容总结
- CSL
- LCSTS
- XSum
- SummScreen

内容分析
- EPRSTMT
- LAMBADA
- TNEWS | 长文本理解
- LEval
- LongBench
- GovReports
- NarrativeQA
- Qasper | 安全
- CivilComments
- CrowsPairs
- CValues
- JigsawMultilingual
- TruthfulQA

健壮性
- AdvGLUE | 代码
- HumanEval
- HumanEvalX
- MBPP
- APPs
- DS1000

模型支持

开源模型	API 模型
- InternLM - LLaMA - LLaMA3 - Vicuna - Alpaca - Baichuan - WizardLM - ChatGLM2 - ChatGLM3 - TigerBot - Qwen - BlueLM - Gemma	- OpenAI - Gemini - Claude - ZhipuAI(ChatGLM) - Baichuan - ByteDance(YunQue) - Huawei(PanGu) - 360 - Baidu(ERNIEBot) - MiniMax(ABAB-Chat) - SenseTime(nova) - Xunfei(Spark)

五、快速开始

下面展示 OpenCompass 的基础用法，展示基座模型模型 InternLM2-1.8B 和对话模型 InternLM2-Chat-1.8B、Qwen2-1.5B-Instruct 在 GSM8K 和 MATH 下采样数据集上的评估。

它们的配置文件可以在 configs/eval_chat_demo.py 和 configs/eval_base_demo.py 中找到。

在运行此实验之前，请确保您已在本地安装了 OpenCompass。这个例子 (应该) 可以在一台 GTX-1660-6G GPU 下成功运行。

对于参数更大的模型，如 Llama3-8B，请参考 configs 目录中提供的其他示例。

1、配置评估任务

在 OpenCompass 中，每个评估任务由待评估的模型和数据集组成。评估的入口点是 run.py。用户可以通过命令行或配置文件选择要测试的模型和数据集。

对于对话模型

命令行（自定义 HF 模型）

对于 HuggingFace 模型，用户可以通过命令行直接设置模型参数，无需额外的配置文件。例如，对于 internlm/internlm2-chat-1_8b 模型，您可以使用以下命令进行评估：

python run.py \
    --datasets demo_gsm8k_chat_gen demo_math_chat_gen \
    --hf-type chat \
    --hf-path internlm/internlm2-chat-1_8b \
    --debug

请注意，通过这种方式，OpenCompass 一次只评估一个模型，而其他方式可以一次评估多个模型。

对于基座模型

对于 HuggingFace 模型，用户可以通过命令行直接设置模型参数，无需额外的配置文件。例如，对于 internlm/internlm2-1_8b 模型，您可以使用以下命令进行评估：

python run.py \
    --datasets demo_gsm8k_base_gen demo_math_base_gen \
    --hf-type base \
    --hf-path internlm/internlm2-1_8b \
    --debug

请注意，通过这种方式，OpenCompass 一次只评估一个模型，而其他方式可以一次评估多个模型。

警告：OpenCompass 通常假定运行环境网络是可用的。如果您遇到网络问题或希望在离线环境中运行 OpenCompass，请参阅 FAQ - 网络 - Q1 寻求解决方案。

接下来的部分将使用基于配置的方法，评测对话模型，作为示例来解释其他特征。

2、启动评估

由于 OpenCompass 默认并行启动评估过程，我们可以在第一次运行时以 --debug 模式启动评估，并检查是否存在问题。包括在前述的所有文档中，我们都使用了 --debug 开关。在 --debug 模式下，任务将按顺序执行，并实时打印输出。

python run.py configs/eval_chat_demo.py -w outputs/demo --debug

对话默写 ‘internlm/internlm2-chat-1_8b’ 和 ‘Qwen/Qwen2-1.5B-Instruct’ 将在首次运行期间从 HuggingFace 自动下载。如果一切正常，您应该看到屏幕上显示 “Starting inference process”，且进度条开始前进：

[2023-07-12 18:23:55,076] [opencompass.openicl.icl_inferencer.icl_gen_inferencer] [INFO] Starting inference process...

然后，您可以按 Ctrl+C 中断程序，并以正常模式运行以下命令：

python run.py configs/eval_chat_demo.py -w outputs/demo

在正常模式下，评估任务将在后台并行执行，其输出将被重定向到输出目录 outputs/demo/{TIMESTAMP}。前端的进度条只指示已完成任务的数量，而不考虑其成功或失败。任何后端任务失败都只会在终端触发警告消息。

3、可视化评估结果

评估完成后，评估结果表格将打印如下：

dataset     version    metric    mode      qwen2-1.5b-instruct-hf    internlm2-chat-1.8b-hf
----------  ---------  --------  ------  ------------------------  ------------------------
demo_gsm8k  1d7fe4     accuracy  gen                        56.25                     32.81
demo_math   393424     accuracy  gen                        18.75                     14.06

所有运行输出将定向到 outputs/demo/ 目录，结构如下：

outputs/default/
├── 20200220_120000
├── 20230220_183030     # 每个实验一个文件夹
│   ├── configs         # 用于记录的已转储的配置文件。如果在同一个实验文件夹中重新运行了不同的实验，可能会保留多个配置
│   ├── logs            # 推理和评估阶段的日志文件
│   │   ├── eval
│   │   └── infer
│   ├── predictions   # 每个任务的推理结果
│   ├── results       # 每个任务的评估结果
│   └── summary       # 单个实验的汇总评估结果
├── ...

打印评测结果的过程可被进一步定制化，用于输出一些数据集的平均分 (例如 MMLU, C-Eval 等)。

关于评测结果输出的更多介绍可阅读结果展示。