Math and Reasoning
GSM8K
这篇文章由OpenAI团队撰写,提出了一种基于验证器(verifiers)的新方法,用于解决数学文字题(math word problems)。主要目标是提高LLM在多步骤数学推理任务中的性能,解决模型容易犯错和缺乏自我纠错机制的问题。
1. 背景与动机
数学文字题要求模型不仅需要理解自然语言,还需执行多步骤推理。然而:
- 错误敏感性高:生成的答案中任何一个步骤的错误都会导致最终答案错误。
- 生成过程不可逆:现有的自回归生成模型难以纠正中间步骤的错误。
因此,作者提出通过训练验证器来对模型生成的答案进行评估,并选择最优解。
2. 数据集:GSM8K
为支持研究,文章引入了一个新的数据集GSM8K,包括8500道高质量的小学数学文字题:
- 多样性:避免模板化设计,问题形式和语言风格多样化。
- 难度适中:题目使用基本算术运算(加、减、乘、除),设计为难倒现有的大型模型但仍可解决。
- 自然语言解答:解答过程采用自然语言描述,而不是纯粹的数学表达式,帮助理解模型的推理过程。
数据集分为7500道训练题和1000道测试题,所有题目经过人工和算法的质量检查,错误率低于2%。
3. 方法:验证器的引入
作者提出了两种方法来提升模型解决问题的能力:
- 微调(Finetuning):
- 直接通过微调训练语言模型。
- 在测试时,生成单个low temperature样本并检查答案是否正确。
- 验证(Verification):
- 生成多个解答(high temperature样本),利用验证器对每个解答评分。
- 验证器判断解答是否正确,并选择评分最高的答案。
- 验证器的训练只需判断生成的解答是否能达到正确答案。
Low Temperature
- 定义:设置一个较低的温度值(通常接近 0,例如 T=0.1T = 0.1T=0.1 或 T=0T = 0T=0)。
- 效果:
- 模型倾向于选择概率最高的词汇(最确定的选项)。
- 生成结果更“保守”,更具确定性。
- 优点:
- 在数学问题中,低温生成适合测试模型是否能够在严格推理下生成正确答案。
- 输出更稳定,可复现性高。
- 使用场景:在验证微调模型时,生成单个解答来判断模型是否能准确完成任务。
High Temperature
- 定义:设置一个较高的温度值(例如 T=0.7T = 0.7T=0.7 或 T=1.0T = 1.0T=1.0)。
- 效果:
- 增加生成结果的多样性,模型更可能选择概率较低的词汇。
- 生成结果更具创造性和随机性。
- 优点:
- 有助于生成多个解答(高温样本)以供验证器评分。
- 在任务需要探索更多解答可能性时效果显著。
- 使用场景:为验证器生成多个候选解答,让验证器挑选最优解。
验证器的优势在于:
- 任务简单,评分效率高。
- 可以扩展到更复杂的数据分布和模型架构。
4. 实验结果
实验比较了基于微调和验证器的方法在不同模型规模(如6B和175B)上的表现:
- 性能提升显著:验证器比微调基线提升了相当于30倍模型参数规模的效果。
- 数据规模的影响:验证器对数据扩展的效果优于微调,特别是在大数据集上。
- 计算效率:尽管生成多个样本增加了计算开销,但在计算次数适中(如100次)时验证器效果最佳。
5. 技术细节
- 计算器注释:训练中加入计算器注释以减少计算错误,例如将“20 + 10 =”替换为“<<20+10=30>>”。
- 验证器目标:通过解决正确性判断的辅助目标,帮助模型更准确地评分。
6. 局限性与未来工作
- 错误识别局限:验证器在某些场景中无法区分逻辑正确性与答案正确性。
- 数据集依赖:GSM8K主要关注基础算术,尚未涵盖更高级数学或跨领域问题。
MATH
1. 研究背景
数学问题解决能力是评估人工智能推理能力的重要指标,然而:
- 现有模型在数学问题上表现较差,尤其是多步骤推理任务。
- 许多数据集只关注简单的计算或形式化证明,而缺乏自然语言描述的复杂问题。
因此,作者引入了MATH数据集,旨在通过具有挑战性的数学问题评估模型的推理能力。
2. MATH数据集的特点
- 数据来源与规模:
- MATH包含12,500道问题,这些问题主要来自数学竞赛(如AMC和AIME)。
- 每个问题附带详细的分步解答和最终答案,便于模型学习与评估。
- 覆盖范围:
- 包括7个数学领域:代数、几何、数论、概率统计等。
- 每个领域的问题按难度分为1到5级,从简单计算到高难度问题不等。
- 解答格式:
- 问题和解答使用LATEX书写,确保一致性和清晰度。
- 解答以分步形式呈现,帮助模型学习完整的推理过程。
3. 实验结果
作者测试了多种语言模型(如GPT-2、GPT-3)在MATH上的表现,主要发现包括:
- 表现较低:
- GPT-3(175B参数)在MATH上的准确率仅为6.9%。
- 即使是最简单的问题(难度1),模型的准确率也仅为15%。
- 规模效应有限:
- 增加模型参数量只能带来有限的性能提升。
- 预计需要极其庞大的模型才能显著提高准确率,这在计算资源上是不现实的。
- 人类表现:
- 普通大学生在测试中平均得分为40%。
- 数学奥赛金牌获得者的得分为90%,表明MATH数据集对人类也有一定挑战性。
4. 辅助数据集(AMPS)
为了提高模型在MATH上的表现,作者开发了一个辅助预训练数据集AMPS:
- 包含超过500万道问题,包括Khan Academy练习题和通过Mathematica生成的问题。
- 涉及从基础数学到高等数学的多个领域。
- 在预训练阶段引入AMPS显著提高了模型性能。
5. 模型训练与推理分析
- 分步解答的作用:
- 训练中引入分步解答可以提高模型准确率。
- 但生成过程中的逻辑错误会影响最终答案质量。
- 提示帮助:
- 给模型提供部分解答作为提示,可以提升最终解答的准确率。
- 即使提供接近完整的解答,模型的正确率也仅为40%左右,表明仍有很大改进空间。
6. 主要结论
- MATH数据集通过具有挑战性的问题和细化的评估指标,为研究数学问题解决的AI提供了新的基准。
- 尽管当前模型在MATH上的表现有限,作者强调,需要新的算法改进,而不仅仅是依赖于模型规模的扩展。
- 未来的研究方向包括更好地利用分步解答和开发新的数学推理算法。
GPQA
专为研究如何在极具挑战性的场景中监督和评估模型而设计
1. 背景与研究动机
随着大型语言模型(LLMs)的发展,其在复杂推理任务中的潜力逐渐显现。然而,在处理需要高度专业化知识的问题时,AI模型的准确性和可靠性仍然是一个挑战。研究者提出GPQA的主要目标包括:
- 测试AI在领域知识问题中的能力,尤其是那些超出一般人类专家能力范围的问题。
- 支持“可扩展监督”研究,通过人类监督协议提高AI模型在未来超人类任务中的表现。
2. GPQA数据集的特点
- 高质量与高难度:
- GPQA数据集包含448道多项选择题,这些问题由生物、化学和物理领域的博士及博士生撰写。
- 问题涵盖了复杂领域知识,具有明确的正确答案和详细的解答说明。
- “Google-proof”设计:
- GPQA的问题设计使得即使非专家使用互联网搜索答案,也无法轻松解答。
- 数据集旨在挑战现有语言模型及其工具辅助能力。
- 验证流程:
- 专家与非专家分别对问题进行验证。
- 专家平均准确率为65%,非专家仅为34%,表明数据集的高难度。
3. 数据集构建流程
- 问题撰写:
- 61名领域专家通过详细指导撰写问题,问题需清晰、难度高,并包含可验证的答案。
- 每个问题至少需要两个领域专家验证,确保客观性。
- 验证阶段:
- 专家验证:两轮专家独立解答和反馈。
- 非专家验证:来自其他领域的专家尝试解答问题,以测试问题对非熟悉领域人员的难度。
- 问题分类:
- 数据集分为GPQA主集和GPQA Diamond子集:
- 主集包含所有高质量问题。
- Diamond子集包括那些两个专家均答对且至少2/3非专家答错的问题,难度更高。
- 数据集分为GPQA主集和GPQA Diamond子集:
4. 模型实验与基线结果
作者在GPQA上测试了多个大型语言模型(如GPT-4)和人类验证者:
- GPT-4表现:使用链式推理提示,GPT-4的准确率为39%,略高于非专家,但远低于专家。
- 非专家表现:即便具备丰富资源(包括网络搜索),非专家的平均准确率仅为34%,表明问题的Google-proof属性。
- 专家表现:两轮专家验证后,准确率达到65%-74%。
5. GPQA的应用
GPQA的主要应用场景包括:
- AI模型的可扩展监督实验:研究如何通过人类与AI协作改进模型输出的准确性。
- 超高难度问答任务:帮助开发更强大的模型来解答远超一般人类能力的问题。
6. 局限性与未来方向
- 数据集规模有限:仅有448道问题,难以进行大规模模型训练。
- 多样性不足:问题集中在生物、化学和物理领域,其他学科尚未覆盖。
- 偏差可能:问题设计依赖专家的背景和文化,这可能会引入偏差。
ARC-Challenge
ARC的目标是挑战现有的语言模型,使其需要更强的知识推理能力,而不仅仅依赖表面信息。
1. 背景与研究动机
当前的许多问答任务数据集(如SQuAD或SNLI)主要依赖于检索任务,模型可以通过表面级信息(如关键词匹配)来找到答案。这种形式的问答测试未能推动模型在推理、常识知识整合等方面的发展。
ARC旨在弥补这一不足,推动人工智能在以下领域的进步:
- 更复杂的推理:需要整合多种知识和信息。
- 超越简单检索:答案无法通过简单的检索算法获得。
- 学科多样性:问题覆盖广泛的领域(主要是科学领域)。
2. ARC数据集的特点
-
数据量与分类:
- 数据集包含7787道题目,分为:
- Challenge Set(挑战集):2590道较难的问题。
- Easy Set(简单集):5197道较容易的问题。
- 问题类型为多项选择题(通常为4选1)。
- 数据集包含7787道题目,分为:
-
问题来源:
- 所有问题均来自美国小学和中学的标准化科学测试。
- 覆盖广泛学科知识,包括生物学、物理学、地质学等。
-
分类标准:
挑战集中的问题是那些无法通过以下两种简单方法解答的问题:
- 信息检索算法(IR):基于检索的答案匹配。
- 共现算法(PMI):基于词语的统计相关性。
3. ARC语料库
为了解决复杂问题,ARC还提供了一个科学语料库(ARC Corpus),包含1400万句科学相关的句子。语料库特点:
- 包含与科学相关的背景知识。
- 覆盖约95%的挑战集问题所需的知识。
4. 基线模型实验
作者测试了多种基线模型在ARC上的表现,包括:
- 简单方法:
- 信息检索(IR)
- 共现算法(PMI)
- 神经网络模型:
- BiDAF:适用于阅读理解的双向注意流模型。
- DecompAttn:分解注意力模型。
- DGEM:基于图的推理模型。
实验结果:
- 在挑战集上,无论是传统方法还是神经模型,其表现均接近随机猜测(25%准确率)。
- 在简单集中,模型准确率可以达到50%-60%。
5. 问题的知识与推理类型
ARC中的问题需要多种知识和推理能力,包括:
- 知识类型:
- 定义性知识(例如:“什么是全球变暖?”)。
- 基本事实与属性(例如:“空气中含量最多的元素是什么?”)。
- 过程与因果推理(例如:“沉积岩形成的第一步是什么?”)。
- 推理类型:
- 多跳推理(需要从多个知识点中整合答案)。
- 假设推理与反事实推理。
- 空间与运动推理。
6. ARC的意义
ARC为当前的问答研究提出了新的挑战:
- 推动模型超越简单的检索与匹配,提升推理和知识整合能力。
- 强调模型在复杂推理问题上的发展,而不仅仅依赖规模扩展。
- 为AI研究提供了一个全新的基准,吸引更多研究者关注高难度任务。
7. 局限性与未来方向
- 问题来源有限:问题集中在科学领域,学科覆盖范围可以进一步扩展。
- 模型改进空间:当前的基线模型在挑战集上的表现仍有很大提升空间。