大模型测评常用benchmark对应原始论文介绍(二)——数学和推理

Math and Reasoning

GSM8K

这篇文章由OpenAI团队撰写,提出了一种基于验证器(verifiers)的新方法,用于解决数学文字题(math word problems)。主要目标是提高LLM在多步骤数学推理任务中的性能,解决模型容易犯错和缺乏自我纠错机制的问题。


1. 背景与动机

数学文字题要求模型不仅需要理解自然语言,还需执行多步骤推理。然而:

  • 错误敏感性高:生成的答案中任何一个步骤的错误都会导致最终答案错误。
  • 生成过程不可逆:现有的自回归生成模型难以纠正中间步骤的错误。

因此,作者提出通过训练验证器来对模型生成的答案进行评估,并选择最优解。


2. 数据集:GSM8K

为支持研究,文章引入了一个新的数据集GSM8K,包括8500道高质量的小学数学文字题:

  • 多样性:避免模板化设计,问题形式和语言风格多样化。
  • 难度适中:题目使用基本算术运算(加、减、乘、除),设计为难倒现有的大型模型但仍可解决。
  • 自然语言解答:解答过程采用自然语言描述,而不是纯粹的数学表达式,帮助理解模型的推理过程。

数据集分为7500道训练题和1000道测试题,所有题目经过人工和算法的质量检查,错误率低于2%。


3. 方法:验证器的引入

作者提出了两种方法来提升模型解决问题的能力:

  1. 微调(Finetuning)
    • 直接通过微调训练语言模型。
    • 在测试时,生成单个low temperature样本并检查答案是否正确。
  2. 验证(Verification)
    • 生成多个解答(high temperature样本),利用验证器对每个解答评分。
    • 验证器判断解答是否正确,并选择评分最高的答案。
    • 验证器的训练只需判断生成的解答是否能达到正确答案。
Low Temperature
  • 定义:设置一个较低的温度值(通常接近 0,例如 T=0.1T = 0.1T=0.1 或 T=0T = 0T=0)。
  • 效果:
    • 模型倾向于选择概率最高的词汇(最确定的选项)。
    • 生成结果更“保守”,更具确定性。
  • 优点:
    • 在数学问题中,低温生成适合测试模型是否能够在严格推理下生成正确答案。
    • 输出更稳定,可复现性高。
  • 使用场景:在验证微调模型时,生成单个解答来判断模型是否能准确完成任务。

High Temperature
  • 定义:设置一个较高的温度值(例如 T=0.7T = 0.7T=0.7 或 T=1.0T = 1.0T=1.0)。
  • 效果:
    • 增加生成结果的多样性,模型更可能选择概率较低的词汇。
    • 生成结果更具创造性和随机性。
  • 优点:
    • 有助于生成多个解答(高温样本)以供验证器评分。
    • 在任务需要探索更多解答可能性时效果显著。
  • 使用场景:为验证器生成多个候选解答,让验证器挑选最优解。

验证器的优势在于:

  • 任务简单,评分效率高。
  • 可以扩展到更复杂的数据分布和模型架构。

4. 实验结果

实验比较了基于微调和验证器的方法在不同模型规模(如6B和175B)上的表现:

  • 性能提升显著:验证器比微调基线提升了相当于30倍模型参数规模的效果。
  • 数据规模的影响:验证器对数据扩展的效果优于微调,特别是在大数据集上。
  • 计算效率:尽管生成多个样本增加了计算开销,但在计算次数适中(如100次)时验证器效果最佳。

5. 技术细节
  • 计算器注释:训练中加入计算器注释以减少计算错误,例如将“20 + 10 =”替换为“<<20+10=30>>”。
  • 验证器目标:通过解决正确性判断的辅助目标,帮助模型更准确地评分。

6. 局限性与未来工作
  • 错误识别局限:验证器在某些场景中无法区分逻辑正确性与答案正确性。
  • 数据集依赖:GSM8K主要关注基础算术,尚未涵盖更高级数学或跨领域问题。

MATH


1. 研究背景

数学问题解决能力是评估人工智能推理能力的重要指标,然而:

  • 现有模型在数学问题上表现较差,尤其是多步骤推理任务。
  • 许多数据集只关注简单的计算或形式化证明,而缺乏自然语言描述的复杂问题。

因此,作者引入了MATH数据集,旨在通过具有挑战性的数学问题评估模型的推理能力。


2. MATH数据集的特点
  1. 数据来源与规模
    • MATH包含12,500道问题,这些问题主要来自数学竞赛(如AMC和AIME)。
    • 每个问题附带详细的分步解答和最终答案,便于模型学习与评估。
  2. 覆盖范围
    • 包括7个数学领域:代数、几何、数论、概率统计等。
    • 每个领域的问题按难度分为1到5级,从简单计算到高难度问题不等。
  3. 解答格式
    • 问题和解答使用LATEX书写,确保一致性和清晰度。
    • 解答以分步形式呈现,帮助模型学习完整的推理过程。

3. 实验结果

作者测试了多种语言模型(如GPT-2、GPT-3)在MATH上的表现,主要发现包括:

  1. 表现较低
    • GPT-3(175B参数)在MATH上的准确率仅为6.9%。
    • 即使是最简单的问题(难度1),模型的准确率也仅为15%。
  2. 规模效应有限
    • 增加模型参数量只能带来有限的性能提升。
    • 预计需要极其庞大的模型才能显著提高准确率,这在计算资源上是不现实的。
  3. 人类表现
    • 普通大学生在测试中平均得分为40%。
    • 数学奥赛金牌获得者的得分为90%,表明MATH数据集对人类也有一定挑战性。

4. 辅助数据集(AMPS)

为了提高模型在MATH上的表现,作者开发了一个辅助预训练数据集AMPS:

  • 包含超过500万道问题,包括Khan Academy练习题和通过Mathematica生成的问题。
  • 涉及从基础数学到高等数学的多个领域。
  • 在预训练阶段引入AMPS显著提高了模型性能。

5. 模型训练与推理分析
  1. 分步解答的作用
    • 训练中引入分步解答可以提高模型准确率。
    • 但生成过程中的逻辑错误会影响最终答案质量。
  2. 提示帮助
    • 给模型提供部分解答作为提示,可以提升最终解答的准确率。
    • 即使提供接近完整的解答,模型的正确率也仅为40%左右,表明仍有很大改进空间。

6. 主要结论
  • MATH数据集通过具有挑战性的问题和细化的评估指标,为研究数学问题解决的AI提供了新的基准。
  • 尽管当前模型在MATH上的表现有限,作者强调,需要新的算法改进,而不仅仅是依赖于模型规模的扩展。
  • 未来的研究方向包括更好地利用分步解答和开发新的数学推理算法。

GPQA

专为研究如何在极具挑战性的场景中监督和评估模型而设计


1. 背景与研究动机

随着大型语言模型(LLMs)的发展,其在复杂推理任务中的潜力逐渐显现。然而,在处理需要高度专业化知识的问题时,AI模型的准确性和可靠性仍然是一个挑战。研究者提出GPQA的主要目标包括:

  • 测试AI在领域知识问题中的能力,尤其是那些超出一般人类专家能力范围的问题。
  • 支持“可扩展监督”研究,通过人类监督协议提高AI模型在未来超人类任务中的表现。

2. GPQA数据集的特点
  1. 高质量与高难度
    • GPQA数据集包含448道多项选择题,这些问题由生物、化学和物理领域的博士及博士生撰写。
    • 问题涵盖了复杂领域知识,具有明确的正确答案和详细的解答说明。
  2. “Google-proof”设计
    • GPQA的问题设计使得即使非专家使用互联网搜索答案,也无法轻松解答。
    • 数据集旨在挑战现有语言模型及其工具辅助能力。
  3. 验证流程
    • 专家与非专家分别对问题进行验证。
    • 专家平均准确率为65%,非专家仅为34%,表明数据集的高难度。

3. 数据集构建流程
  1. 问题撰写
    • 61名领域专家通过详细指导撰写问题,问题需清晰、难度高,并包含可验证的答案。
    • 每个问题至少需要两个领域专家验证,确保客观性。
  2. 验证阶段
    • 专家验证:两轮专家独立解答和反馈。
    • 非专家验证:来自其他领域的专家尝试解答问题,以测试问题对非熟悉领域人员的难度。
  3. 问题分类
    • 数据集分为GPQA主集和GPQA Diamond子集:
      • 主集包含所有高质量问题。
      • Diamond子集包括那些两个专家均答对且至少2/3非专家答错的问题,难度更高。

4. 模型实验与基线结果

作者在GPQA上测试了多个大型语言模型(如GPT-4)和人类验证者:

  • GPT-4表现:使用链式推理提示,GPT-4的准确率为39%,略高于非专家,但远低于专家。
  • 非专家表现:即便具备丰富资源(包括网络搜索),非专家的平均准确率仅为34%,表明问题的Google-proof属性。
  • 专家表现:两轮专家验证后,准确率达到65%-74%。

5. GPQA的应用

GPQA的主要应用场景包括:

  • AI模型的可扩展监督实验:研究如何通过人类与AI协作改进模型输出的准确性。
  • 超高难度问答任务:帮助开发更强大的模型来解答远超一般人类能力的问题。

6. 局限性与未来方向
  • 数据集规模有限:仅有448道问题,难以进行大规模模型训练。
  • 多样性不足:问题集中在生物、化学和物理领域,其他学科尚未覆盖。
  • 偏差可能:问题设计依赖专家的背景和文化,这可能会引入偏差。

ARC-Challenge

ARC的目标是挑战现有的语言模型,使其需要更强的知识推理能力,而不仅仅依赖表面信息。


1. 背景与研究动机

当前的许多问答任务数据集(如SQuAD或SNLI)主要依赖于检索任务,模型可以通过表面级信息(如关键词匹配)来找到答案。这种形式的问答测试未能推动模型在推理、常识知识整合等方面的发展。

ARC旨在弥补这一不足,推动人工智能在以下领域的进步:

  1. 更复杂的推理:需要整合多种知识和信息。
  2. 超越简单检索:答案无法通过简单的检索算法获得。
  3. 学科多样性:问题覆盖广泛的领域(主要是科学领域)。

2. ARC数据集的特点
  1. 数据量与分类

    • 数据集包含7787道题目,分为:
      • Challenge Set(挑战集):2590道较难的问题。
      • Easy Set(简单集):5197道较容易的问题。
    • 问题类型为多项选择题(通常为4选1)。
  2. 问题来源

    • 所有问题均来自美国小学和中学的标准化科学测试。
    • 覆盖广泛学科知识,包括生物学、物理学、地质学等。
  3. 分类标准

    挑战集中的问题是那些无法通过以下两种简单方法解答的问题:

    • 信息检索算法(IR):基于检索的答案匹配。
    • 共现算法(PMI):基于词语的统计相关性。

3. ARC语料库

为了解决复杂问题,ARC还提供了一个科学语料库(ARC Corpus),包含1400万句科学相关的句子。语料库特点:

  1. 包含与科学相关的背景知识。
  2. 覆盖约95%的挑战集问题所需的知识。

4. 基线模型实验

作者测试了多种基线模型在ARC上的表现,包括:

  1. 简单方法:
    • 信息检索(IR)
    • 共现算法(PMI)
  2. 神经网络模型:
    • BiDAF:适用于阅读理解的双向注意流模型。
    • DecompAttn:分解注意力模型。
    • DGEM:基于图的推理模型。

实验结果

  • 在挑战集上,无论是传统方法还是神经模型,其表现均接近随机猜测(25%准确率)。
  • 在简单集中,模型准确率可以达到50%-60%。

5. 问题的知识与推理类型

ARC中的问题需要多种知识和推理能力,包括:

  1. 知识类型
    • 定义性知识(例如:“什么是全球变暖?”)。
    • 基本事实与属性(例如:“空气中含量最多的元素是什么?”)。
    • 过程与因果推理(例如:“沉积岩形成的第一步是什么?”)。
  2. 推理类型
    • 多跳推理(需要从多个知识点中整合答案)。
    • 假设推理与反事实推理。
    • 空间与运动推理。

6. ARC的意义

ARC为当前的问答研究提出了新的挑战:

  1. 推动模型超越简单的检索与匹配,提升推理和知识整合能力。
  2. 强调模型在复杂推理问题上的发展,而不仅仅依赖规模扩展。
  3. 为AI研究提供了一个全新的基准,吸引更多研究者关注高难度任务。

7. 局限性与未来方向
  • 问题来源有限:问题集中在科学领域,学科覆盖范围可以进一步扩展。
  • 模型改进空间:当前的基线模型在挑战集上的表现仍有很大提升空间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值