大模型测评常用benchmark对应原始论文介绍（二）——数学和推理

Math and Reasoning

GSM8K

这篇文章由OpenAI团队撰写，提出了一种基于验证器（verifiers）的新方法，用于解决数学文字题（math word problems）。主要目标是提高LLM在多步骤数学推理任务中的性能，解决模型容易犯错和缺乏自我纠错机制的问题。

1. 背景与动机

数学文字题要求模型不仅需要理解自然语言，还需执行多步骤推理。然而：

错误敏感性高：生成的答案中任何一个步骤的错误都会导致最终答案错误。
生成过程不可逆：现有的自回归生成模型难以纠正中间步骤的错误。

因此，作者提出通过训练验证器来对模型生成的答案进行评估，并选择最优解。

2. 数据集：GSM8K

为支持研究，文章引入了一个新的数据集GSM8K，包括8500道高质量的小学数学文字题：

多样性：避免模板化设计，问题形式和语言风格多样化。
难度适中：题目使用基本算术运算（加、减、乘、除），设计为难倒现有的大型模型但仍可解决。
自然语言解答：解答过程采用自然语言描述，而不是纯粹的数学表达式，帮助理解模型的推理过程。

数据集分为7500道训练题和1000道测试题，所有题目经过人工和算法的质量检查，错误率低于2%。

3. 方法：验证器的引入

作者提出了两种方法来提升模型解决问题的能力：

微调（Finetuning）：
- 直接通过微调训练语言模型。
- 在测试时，生成单个low temperature样本并检查答案是否正确。
验证（Verification）：
- 生成多个解答（high temperature样本），利用验证器对每个解答评分。
- 验证器判断解答是否正确，并选择评分最高的答案。
- 验证器的训练只需判断生成的解答是否能达到正确答案。

Low Temperature

定义：设置一个较低的温度值（通常接近 0，例如 T=0.1T = 0.1T=0.1 或 T=0T = 0T=0）。
效果：
模型倾向于选择概率最高的词汇（最确定的选项）。
生成结果更“保守”，更具确定性。

优点：
在数学问题中，低温生成适合测试模型是否能够在严格推理下生成正确答案。
输出更稳定，可复现性高。

使用场景：在验证微调模型时，生成单个解答来判断模型是否能准确完成任务。

High Temperature

定义：设置一个较高的温度值（例如 T=0.7T = 0.7T=0.7 或 T=1.0T = 1.0T=1.0）。
效果：
增加生成结果的多样性，模型更可能选择概率较低的词汇。
生成结果更具创造性和随机性。

优点：
有助于生成多个解答（高温样本）以供验证器评分。
在任务需要探索更多解答可能性时效果显著。

使用场景：为验证器生成多个候选解答，让验证器挑选最优解。

验证器的优势在于：

任务简单，评分效率高。
可以扩展到更复杂的数据分布和模型架构。

4. 实验结果

实验比较了基于微调和验证器的方法在不同模型规模（如6B和175B）上的表现：

性能提升显著：验证器比微调基线提升了相当于30倍模型参数规模的效果。
数据规模的影响：验证器对数据扩展的效果优于微调，特别是在大数据集上。
计算效率：尽管生成多个样本增加了计算开销，但在计算次数适中（如100次）时验证器效果最佳。

5. 技术细节

计算器注释：训练中加入计算器注释以减少计算错误，例如将“20 + 10 =”替换为“<<20+10=30>>”。
验证器目标：通过解决正确性判断的辅助目标，帮助模型更准确地评分。

6. 局限性与未来工作

错误识别局限：验证器在某些场景中无法区分逻辑正确性与答案正确性。
数据集依赖：GSM8K主要关注基础算术，尚未涵盖更高级数学或跨领域问题。

MATH

1. 研究背景

数学问题解决能力是评估人工智能推理能力的重要指标，然而：

现有模型在数学问题上表现较差，尤其是多步骤推理任务。
许多数据集只关注简单的计算或形式化证明，而缺乏自然语言描述的复杂问题。

因此，作者引入了MATH数据集，旨在通过具有挑战性的数学问题评估模型的推理能力。

2. MATH数据集的特点

数据来源与规模：
- MATH包含12,500道问题，这些问题主要来自数学竞赛（如AMC和AIME）。
- 每个问题附带详细的分步解答和最终答案，便于模型学习与评估。
覆盖范围：
- 包括7个数学领域：代数、几何、数论、概率统计等。
- 每个领域的问题按难度分为1到5级，从简单计算到高难度问题不等。
解答格式：
- 问题和解答使用LATEX书写，确保一致性和清晰度。
- 解答以分步形式呈现，帮助模型学习完整的推理过程。

3. 实验结果

作者测试了多种语言模型（如GPT-2、GPT-3）在MATH上的表现，主要发现包括：

表现较低：
- GPT-3（175B参数）在MATH上的准确率仅为6.9%。
- 即使是最简单的问题（难度1），模型的准确率也仅为15%。
规模效应有限：
- 增加模型参数量只能带来有限的性能提升。
- 预计需要极其庞大的模型才能显著提高准确率，这在计算资源上是不现实的。
人类表现：
- 普通大学生在测试中平均得分为40%。
- 数学奥赛金牌获得者的得分为90%，表明MATH数据集对人类也有一定挑战性。

4. 辅助数据集（AMPS）

为了提高模型在MATH上的表现，作者开发了一个辅助预训练数据集AMPS：

包含超过500万道问题，包括Khan Academy练习题和通过Mathematica生成的问题。
涉及从基础数学到高等数学的多个领域。
在预训练阶段引入AMPS显著提高了模型性能。

5. 模型训练与推理分析

分步解答的作用：
- 训练中引入分步解答可以提高模型准确率。
- 但生成过程中的逻辑错误会影响最终答案质量。
提示帮助：
- 给模型提供部分解答作为提示，可以提升最终解答的准确率。
- 即使提供接近完整的解答，模型的正确率也仅为40%左右，表明仍有很大改进空间。

6. 主要结论

MATH数据集通过具有挑战性的问题和细化的评估指标，为研究数学问题解决的AI提供了新的基准。
尽管当前模型在MATH上的表现有限，作者强调，需要新的算法改进，而不仅仅是依赖于模型规模的扩展。
未来的研究方向包括更好地利用分步解答和开发新的数学推理算法。

GPQA

专为研究如何在极具挑战性的场景中监督和评估模型而设计

1. 背景与研究动机

随着大型语言模型（LLMs）的发展，其在复杂推理任务中的潜力逐渐显现。然而，在处理需要高度专业化知识的问题时，AI模型的准确性和可靠性仍然是一个挑战。研究者提出GPQA的主要目标包括：

测试AI在领域知识问题中的能力，尤其是那些超出一般人类专家能力范围的问题。
支持“可扩展监督”研究，通过人类监督协议提高AI模型在未来超人类任务中的表现。

2. GPQA数据集的特点

高质量与高难度：
- GPQA数据集包含448道多项选择题，这些问题由生物、化学和物理领域的博士及博士生撰写。
- 问题涵盖了复杂领域知识，具有明确的正确答案和详细的解答说明。
“Google-proof”设计：
- GPQA的问题设计使得即使非专家使用互联网搜索答案，也无法轻松解答。
- 数据集旨在挑战现有语言模型及其工具辅助能力。
验证流程：
- 专家与非专家分别对问题进行验证。
- 专家平均准确率为65%，非专家仅为34%，表明数据集的高难度。

3. 数据集构建流程

问题撰写：
- 61名领域专家通过详细指导撰写问题，问题需清晰、难度高，并包含可验证的答案。
- 每个问题至少需要两个领域专家验证，确保客观性。
验证阶段：
- 专家验证：两轮专家独立解答和反馈。
- 非专家验证：来自其他领域的专家尝试解答问题，以测试问题对非熟悉领域人员的难度。
问题分类：
- 数据集分为GPQA主集和GPQA Diamond子集：
  - 主集包含所有高质量问题。
  - Diamond子集包括那些两个专家均答对且至少2/3非专家答错的问题，难度更高。

4. 模型实验与基线结果

作者在GPQA上测试了多个大型语言模型（如GPT-4）和人类验证者：

GPT-4表现：使用链式推理提示，GPT-4的准确率为39%，略高于非专家，但远低于专家。
非专家表现：即便具备丰富资源（包括网络搜索），非专家的平均准确率仅为34%，表明问题的Google-proof属性。
专家表现：两轮专家验证后，准确率达到65%-74%。

5. GPQA的应用

GPQA的主要应用场景包括：

AI模型的可扩展监督实验：研究如何通过人类与AI协作改进模型输出的准确性。
超高难度问答任务：帮助开发更强大的模型来解答远超一般人类能力的问题。

6. 局限性与未来方向

数据集规模有限：仅有448道问题，难以进行大规模模型训练。
多样性不足：问题集中在生物、化学和物理领域，其他学科尚未覆盖。
偏差可能：问题设计依赖专家的背景和文化，这可能会引入偏差。

ARC-Challenge

ARC的目标是挑战现有的语言模型，使其需要更强的知识推理能力，而不仅仅依赖表面信息。

1. 背景与研究动机

当前的许多问答任务数据集（如SQuAD或SNLI）主要依赖于检索任务，模型可以通过表面级信息（如关键词匹配）来找到答案。这种形式的问答测试未能推动模型在推理、常识知识整合等方面的发展。

ARC旨在弥补这一不足，推动人工智能在以下领域的进步：

更复杂的推理：需要整合多种知识和信息。
超越简单检索：答案无法通过简单的检索算法获得。
学科多样性：问题覆盖广泛的领域（主要是科学领域）。

2. ARC数据集的特点

数据量与分类：
- 数据集包含7787道题目，分为：
  - Challenge Set（挑战集）：2590道较难的问题。
  - Easy Set（简单集）：5197道较容易的问题。
- 问题类型为多项选择题（通常为4选1）。
问题来源：
- 所有问题均来自美国小学和中学的标准化科学测试。
- 覆盖广泛学科知识，包括生物学、物理学、地质学等。
分类标准：

挑战集中的问题是那些无法通过以下两种简单方法解答的问题：
- 信息检索算法（IR）：基于检索的答案匹配。
- 共现算法（PMI）：基于词语的统计相关性。

3. ARC语料库

为了解决复杂问题，ARC还提供了一个科学语料库（ARC Corpus），包含1400万句科学相关的句子。语料库特点：

包含与科学相关的背景知识。
覆盖约95%的挑战集问题所需的知识。

4. 基线模型实验

作者测试了多种基线模型在ARC上的表现，包括：

简单方法：
- 信息检索（IR）
- 共现算法（PMI）
神经网络模型：
- BiDAF：适用于阅读理解的双向注意流模型。
- DecompAttn：分解注意力模型。
- DGEM：基于图的推理模型。

实验结果：

在挑战集上，无论是传统方法还是神经模型，其表现均接近随机猜测（25%准确率）。
在简单集中，模型准确率可以达到50%-60%。

5. 问题的知识与推理类型

ARC中的问题需要多种知识和推理能力，包括：

知识类型：
- 定义性知识（例如：“什么是全球变暖？”）。
- 基本事实与属性（例如：“空气中含量最多的元素是什么？”）。
- 过程与因果推理（例如：“沉积岩形成的第一步是什么？”）。
推理类型：
- 多跳推理（需要从多个知识点中整合答案）。
- 假设推理与反事实推理。
- 空间与运动推理。

6. ARC的意义

ARC为当前的问答研究提出了新的挑战：

推动模型超越简单的检索与匹配，提升推理和知识整合能力。
强调模型在复杂推理问题上的发展，而不仅仅依赖规模扩展。
为AI研究提供了一个全新的基准，吸引更多研究者关注高难度任务。

7. 局限性与未来方向

问题来源有限：问题集中在科学领域，学科覆盖范围可以进一步扩展。
模型改进空间：当前的基线模型在挑战集上的表现仍有很大提升空间。