论文阅读笔记:AGIEval

论文介绍

AGIEval 论文地址
Github 地址

论文主要工作

介绍了AGIEval,一个新的基准,专门设计用于评估大型基础模型的一般能力与人类水平的认知。该基准包括高质量的官方入学考试,资格考试和为人类参与者量身定制的高级竞赛,包括法学院入学考试和大学入学考试。这些评估为衡量人的能力建立了官方认可的标准,使其非常适合在以人为中心的任务背景下评估基础模型。此外,AGIEval还整合了中英文双语任务,为模范行为提供了更全面的评估。我们使用AGIEval对三种先进的大型基础模型进行了广泛的评估:Text-Davinci-003,ChatGPT和GPT-4。值得注意的是,GPT-4在LSAT、SAT和数学竞赛中超越了人类的平均表现,在SAT数学考试中达到了95%的准确率,在高考英语考试中达到了92.5%的准确率,展示了当代基础模型令人印象深刻的表现。尽管它们取得了重大成就,但我们深入的手动分析也揭示了这些大型语言模型在理解,知识利用,推理和计算方面的局限性。在这些发现的指导下,我们探索了这一领域未来潜在的研究途径。通过在以人为中心的任务上评估这些基础模型,并更深入地探索它们的能力,我们努力促进与人类认知更紧密结合的模型的开发。最终,这将使他们能够以更高的准确性和可靠性处理更广泛的复杂、以人为本的任务。

做了什么

  • 选用标准化考试的问题,中文和英文总共 8062 道题目
  • 其中中文题目来自于三类:高考题、律师资格考试、公务员考试。

我们删除了所有主观问题,只保留客观问题,如选择题和填空题。在数据收集方面,我们从公开的在线资源中收集高考和SAT试题,并沿着相应的解答或解释。对于LSAT,我们利用了Wang et al.(2022)和Zhong et al.(2022)的数据,其中包括1991年至2016年LSAT的三项任务(逻辑推理,阅读理解和分析推理)。对于中国公务员考试,我们重新利用LogiQA的数据(Liu et al.,2021),该数据集基于从中国国家公务员考试中收集的各种类型的逻辑推理题。值得注意的是,LogiQA由双语问题(英语和中文)组成,其中英文版本是中文原版的翻译版本。对于高中数学竞赛,我们使用来自MATH数据集(Hendrycks等人)的数据,包括AMC和AIME的问题。此外,我们将来自AQaA-RAT的GRE和GMAT问题(Ling等人,2017),它强调代数字的问题。在中国公务员考试的情况下,我们重用来自JEC-QA的实例(Zhong et al.,2020),这是一个来自中国国家司法考试的大规模数据集。我们将JEC-QA和MATH这两种类型的实例下采样到1,000个。因此,我们构建了一个由8,062个问题组成的基准进行评估。

在这里插入图片描述

数据格式

{
    "passage": null,
    "question": "设集合 $A=\\{x \\mid x \\geq 1\\}, B=\\{x \\mid-1<x<2\\}$, 则 $A \\cap B=$ ($\\quad$)\\\\\n",
    "options": ["(A)$\\{x \\mid x>-1\\}$", 
        "(B)$\\{x \\mid x \\geq 1\\}$", 
        "(C)$\\{x \\mid-1<x<1\\}$", 
        "(D)$\\{x \\mid 1 \\leq x<2\\}$"
        ],
    "label": "D",
    "answer": null
}

评价指标

  • 对于多项选择题,我们采用标准分类准确率作为评价指标。
  • 对于填空题,我们采用精确匹配(EM)和F1指标

文章测试了Text-Davinci-003、ChatGPT以及GPT-4主流的LLM。

怎么做的

基础模型(Text-Davinci-003,ChatGPT和GPT-4)的性能在零射击学习和思想链(CoT)提示设置下的几个以人为中心的考试中进行了评估。人的性能(平均值)指的是所有考生的平均表现,而人的表现(顶部)指的是前1%的考生的表现,除了律师资格考试使用前10%。我们的研究结果表明,与人类的平均表现相比,GPT-4在SAT,LSAT和数学竞赛中取得了更好的成绩。

GPT-4在SAT、LSAT和数学竞赛中超越了人类的平均表现,SAT数学考试的准确率达到95%,中国高考英语考试的准确率达到92.5%,

4种实验设置

在新开发的基准中使用了20个任务来评估尖端基础模型的性能,包括近源模型,即,GPT-4、ChatGPT和Text-Davinci-003以及开源模型维库纳(Chiang等人,2023年)。我们的实验探索了他们在各种设置下的表现,包括少镜头学习,零镜头学习和思维链提示技术。我们将这些模型的性能与人类的性能进行了比较,如图1所示。值得注意的是,结果显示,GPT-4在零射击思维链(CoT)设置下的LSAT,SAT和数学竞赛中的平均表现优于人类,证明了其在以人为中心的任务中的能力。然而,GPT-4与最高人类绩效之间仍存在差距,这表明未来有改进的机会。我们还发现,这些模型在处理需要复杂推理的任务时会遇到困难(例如,LSAT-分析推理和物理)或特定领域的知识,如法律和化学。此外,我们的综合质量模型能力的四个维度的分析(即,理解,知识,推理和计算)深入研究了各自的优势和局限性,提供了宝贵的见解,他们的一般能力。这种多方面的方法使我们能够彻底检查模型的单任务行为并识别一般模式,最终有助于更好地理解这些最先进的模型及其在处理人类任务方面的潜在应用。我们的目标是推动创新,开发更有效、更可靠的人工智能助手,向通用人工智能(AGI)迈进。通过识别需要改进的领域并了解它们的局限性,我们可以提高模型的性能,并更深入地了解它们的潜在机制。最终,这将带来更强大、更可靠的人工智能系统,更好地满足用户在各种应用中的需求。总之,我们的研究强调了在人类任务的背景下评估基础模型的重要性,并为此类评估提供了坚实的基准。我们希望我们的研究结果能够激发大型基础模型开发的进一步创新和进步,最终导致更可靠和有效的人工智能系统。

实验效果
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(1)GPT-4的上级性能:我们的结果表明,平均而言,GPT-4在所有四种评估设置中的性能均显著优于其对应物(ChatGPT和Text-Davinci-003)。令人印象深刻的是,GPT-4在高考英语上达到了93.8%的准确率,在SAT数学上达到了95%的准确率,展示了其在处理以人为中心的任务方面的上级通用能力。
(2)ChatGPT和Text-Davinci-003之间的比较:我们的分析表明,ChatGPT在需要高度外部知识的任务中显著优于Text-Davinci-003,例如涉及地理,生物,化学,物理和数学的任务。这表明ChatGPT具有更强大的知识基础,并且能够更好地处理需要深入了解特定领域的任务。另一方面,ChatGPT的表现略优于Text-Davinci-003,或者在所有评估设置中,在需要纯粹理解并且不严重依赖外部知识的任务(如英语和LSAT任务)中取得了相当的结果。这一观察意味着这两种模型都能够处理以语言理解和逻辑推理为中心的任务,而不需要专门的领域知识。
(3)复杂任务的挑战:尽管模型的整体性能良好,但我们观察到,所有LLM都在所有评估设置中努力完成复杂的推理任务,例如MATH,LSAT-AR,GK-物理和GK-数学。这突出了这些模型在处理需要高级推理和解决问题技能的任务方面的局限性。在处理复杂推理问题时观察到的困难为未来的研究和开发提供了机会,旨在提高模型的一般推理能力。
(4)在我们的实验中,我们观察到,与零次学习相比,少次学习通常只会导致有限的性能改善。这一发现表明,当前大型语言模型(LLM)的零触发能力正在接近它们的少触发学习能力。这标志着与原始GPT-3相比的显著进步(Brown等人,2020年)的模型,其中少数拍摄性能大大优于零拍摄。这种发展的一个合理解释是当前LLM中增强的人类对齐和指令调整。这些改进使模型能够提前更好地理解任务的含义和上下文,从而使它们即使在零触发设置下也能表现良好。LLM的零触发能力的这一进展突出了LLM指令调整的最新进展的有效性。如图4所示,尽管维库纳在OpenLLM排行榜上表现出色(Beeching等人,2023)及其声称的与ChatGPT相当的能力,福尔斯低于AGIEval,突出了我们的基准测试对开源模型提出的宝贵挑战。

实验分析

思维链提示技术通过提高平均零拍和少拍表现展示了其潜力。然而,CoT的性能增益并不是在所有任务中都能一致地观察到。我们对CoT的分析得出以下结论:
(1)成绩变异性:CoT显著提高了英语数学考试的成绩,包括MATH,AQuA-RAT和SAT-Math。然而,它导致了其他几个任务的成绩下降,这可能是模型产生误导推理过程的结果。我们还观察到CoT的影响在不同的任务中有所不同,这表明它对模型性能的影响并不一致。关键是要进一步研究导致这些性能变化的因素,并确定优化CoT的方法,以实现更广泛的任务。
(2)主干依赖性:CoT的有效性受基础模型的影响。例如,GPT-4更适合生成说明性推理过程,随后在采用CoT时提高性能。这一观察结果强调了考虑CoT和主干模型之间相互作用的重要性,因为它们的兼容性可以显著影响解决问题的能力。
(3)语言敏感性:CoT的影响因语言而异。在LogiQA考试的情况下,英文版本是从原来的中文版本翻译。ChatGPT和GPT-4在LogiQA-英语中使用CoT时表现出性能改进,但在LogiQA-中文中表现出性能下降。在数学测试中也观察到类似的模式,CoT提高了英语数学考试(MATH,AQuA)的成绩,但导致高考中国数学考试的成绩下降。这些研究结果表明,CoT的有效性是敏感的语言变化,强调需要进一步推广和优化CoT不同的语言环境。通过定制CoT以更好地适应不同的语言,我们可以确保在更广泛的任务和语言设置中具有更一致和可靠的问题解决能力。这些观察结果表明,CoT的有效性与任务,模型能力和涉及的语言。在将CoT用于特定任务或开发未来的语言模型时,应仔细考虑这些因素。

分析ChatGPT不同维度的能力

针对ChatGPT做的实验

理解:评估模型是否能够准确理解上下文和问题的语义。
知识:评估模型是否能够准确地回忆相关的外部知识或解决问题的公式。
推理:确定模型是否能够执行正确的推理步骤或制定准确的推理思想来解决问题。
计算方式:评估模型是否能够在数学、生物学、化学和物理学的背景下对给定公式进行正确的数学计算。如果模型在相应技能上正确执行,则实例的得分为1,否则为0。
值得注意的是,一些任务,如LSAT和某些英语任务,主要强调理解和推理,而不需要广泛的外部知识或计算。这些任务被排除在相应的技能分析之外,以保持对相关能力的关注。通过进行这种定性分析,我们可以更详细地了解模型在各个方面的优势和劣势,从而揭示在大型语言模型的未来迭代中可能需要进一步改进的领域。除了能力评分之外,我们还要求注释者提供关于模型行为模式的常见详细见解的摘要,强调它们在解决这些以人为中心的任务方面的优势和劣势。

理解:该模型通常在理解维度上表现良好。对于大多数任务,它可以准确地解释问题的含义,证明其有效理解上下文的能力
知识:在知识维度,该模型展示了识别数学和逻辑任务的正确知识或公式的能力。然而,它遇到的困难,回忆特定领域的知识,如法律,生物和物理。这一观察结果强调了将更多特定领域的知识整合到模型中的重要性,可能是通过利用专门的特定领域的知识库或知识增强的预培训技术。
推理:在四个维度中,模型的推理能力似乎相对欠发达。对于需要复杂的多步推理的任务(例如,LSAT-AR,LogiQA和GK-Physics),该模型难以准确执行多步推理过程。这强调了未来研究的重要性,重点是增强模型的推理能力,可能通过探索创新的激励方法或培训策略,鼓励复杂的推理和解决问题的技能。
计算能力:模型的计算能力弱于其理解能力,并且在不同主题之间显示出差异。他们在数学考试中表现更好,但在化学和生物考试中面临挑战,这些考试通常需要频繁进行涉及化学元素的变量替换。这表明,增强模型的计算和组合抽象和计算能力,特别是在具有专门符号或定制符号替换的主题领域,是进一步改进的关键挑战。

良好的理解:ChatGPT擅长准确理解上下文和问题的语义意义。他们有效地辨别细微差别,解释复杂的问题,解析复杂的句子,展示了他们强大的自然语言理解能力。这种能力使他们能够掌握问题的核心概念,并为随后的推理和解决问题的步骤奠定基础。精通简单推理和演绎:模型擅长处理需要简单推理和演绎的任务。他们可以得出直接的结论,识别逻辑连接,并执行基本的推理,这对于解决各种各样的问题至关重要。他们有效执行简单推理任务的能力是他们整体解决问题技能的重要组成部分。例如,模型可以理解“could be true except”等于“cannot be true”。此外,以LSAT-AR任务中的一个问题为例,它要求模型将8本书放置到一个有三个书架的书架上,条件是:“每个书架至少应该有2本书,并且底部书架上的书应该比顶部书架上的书多”。该模型成功地推导出了“底层书架上最少有3本书,顶层书架上最多有2本书”。掌握一般推理过程:模型展示了理解和生成推理过程的一般思想的能力。它们可以识别问题的主要组成部分,识别解决方案的结构,并概述高级推理策略。这种能力使他们能够产生有意义的解释,并为更详细的推理和解决问题的任务提供了一个起点。这些优势表明,这些模型在与人类解决问题的能力保持一致方面取得了重大进展。然而,仍然有改进的空间,特别是在复杂的推理任务和特定领域的知识

分析模型的缺点

理解:

变量替换的困难:模型很难理解需要变量替换的问题,通常无法认识到这种操作的必要性以及如何应用它来解决问题。这种限制可能会阻碍他们处理各种数学和逻辑任务的能力。例如,该模型经常难以回答化学问题,这些问题涉及用化学元素替换化学方程式中的变量并分析其属性。·
复杂数学概念和符号的挑战:模型发现很难理解复杂的数学概念和解释符号的含义,特别是当涉及多个符号时。这个弱点限制了他们有效解决高级数学问题的能力。与相似概念混淆:模型很容易被相似的概念或术语混淆,有时会导致不正确或误导性的推理。例如,在物理考试中,模型被移动物体的垂直速度和水平速度之间的差异所混淆。这个问题强调了在未来的模型迭代中需要更好的消歧和概念理解技术。
难以处理长上下文:模型容易被长上下文打乱,导致理解和推理能力下降。提高模型的能力,以保持重点和处理广泛的信息是必不可少的,以提高其在现实世界的情况下的性能。

知识:

常识和特定领域知识不足:模型偶尔会表现出缺乏常识或特定领域知识,这阻碍了它们产生合理解释和提供准确答案的能力。这种局限性强调了将不同的知识来源纳入训练数据并探索可以更有效地集成和访问模型中这些信息的技术的重要性。此外,它强调必须扩大模型的接触范围,使其涉及更广泛的主题和领域,确保对各个领域有更全面的了解。例如,给定条件“如果Julio和Kevin都领导上午会议,我们知道Kevin和Rebecca必须领导同一天的会议”,模型错误地推断“因此,Rebecca也必须领导上午会议”。这表明缺乏关于早晨和白天之间关系的常识知识,导致错误的解释。
此外,该模型通常在需要特定领域知识的任务上表现不佳,例如法律和化学。·难以识别正确的公式:模型有时很难回忆和应用解决特定问题所需的适当公式,特别是在需要专业知识或专业知识的任务中。这一缺陷表明,模型的知识检索机制及其识别特定公式与给定问题的相关性的能力有改进的潜力。制定战略,以提高模型的熟练程度,确定和应用正确的公式将是至关重要的,以提高他们的表现,在任务中需要深入了解特定领域的概念和技术。解决这些知识上的弱点将有助于开发更强大、更通用的大型语言模型,更好地处理更广泛的以人为本的任务,并对各个领域表现出更全面的理解

推理:

产生有缺陷的推理链。为了解决更广泛的复杂问题,提高模型系统导航和处理多步推理任务的能力至关重要。
建立不正确的结论和矛盾的推理:模型偶尔会先建立一个不正确的结论,然后在这个错误的基础上产生矛盾的推理。这种行为强调了在模型解决问题的过程中需要改进推理验证和纠错技术。
·概念的隐蔽替代:模型有时会用另一个相似的概念隐蔽地替代一个概念,导致不准确或误导性的推理。例如,在生物考试中,该模型将“同位素标记的氨基酸”的概念替换为“同位素标记的tRNA(一种运输氨基酸的工具)”,导致错误的推理。这个问题强调了在未来的模型迭代中更好的概念消歧和推理一致性的重要性。·难以确定解决方案:模型有时很难找到特定问题的可行解决方案,可能是由于其知识,推理能力或解决问题策略的限制。解决这个缺点需要改进模型的能力,以根据给定的问题上下文来探索、评估和选择适当的解决方案。
易受上下文干扰:大型语言模型的推理能力往往很容易被周围上下文的变化所破坏。当上下文被修改时,模型可能会对相同的条件产生不同的推论,这表明它们的推理能力的鲁棒性还不够。这一观察结果强调了需要开发能够保持一致推理性能的模型,即使在存在不同上下文信息的情况下,也能确保更可靠和稳定的问题解决能力。

计算:

该模型容易产生计算错误,特别是在处理复杂的变量替换时。这可能是由于该模型在处理数学运算方面的计算过程的固有局限性,以及它在解析变量之间复杂关系方面的困难。因此,当试图解决涉及高级代数操作或多步计算的问题时,模型可能难以保持准确性和精度。为了解决这个问题,模型的未来迭代应侧重于增强其数学推理能力,并提高其识别和应用相关数学规则的能力。这可能涉及整合专门设计用于处理复杂计算、变量替换和数值问题解决任务的专用模块或机制。
通过改进模型准确处理和解决复杂数学问题的能力,我们可以将其适用性扩展到更广泛的学科和领域,确保更全面和强大的解决问题的技能。通过解决这些推理弱点,未来的大型语言模型可以开发出更强大的解决问题的能力,使它们能够有效地处理更广泛的以人为中心的任务,并表现出更复杂的推理技能,与人类认知密切相关。

论文的动机

  • 传统的基准测试如SQuAD、GLUE、SuperGLUE等主要旨在评估特定机器技能的人工策划的数据集组成,而不是旨在评估人类行为的现实问题。因此,这些基准测试主要侧重于更简单的文本理解,而不是与现实世界适用性相一致的复杂推理能力。

  • MMLU通过从涵盖各种主题的在线来源收集问题来解决这个问题(例如,历史,人文),人类学习,推动以人为中心的评价。然而,MMLU和我们的工作之间存在关键差异:

    • (1)基准测试的来源:我们的基准测试来自高标准和官方以人为本的考试,例如大学入学考试和专业资格考试,确保对语言模型进行稳健和标准化的评估。相比之下,MMLU的数据来源没有明确提及,也不清楚任务是否来自类似的专业和高质量来源。
    • (2)双语评估:我们的基准是双语的,包含英语和中文的任务,这允许跨不同语言和文化的语言模型进行更全面的评估。相比之下,MMLU只包含英语数据,将其评估范围限制在单一语言。
  • 基础模型的快速发展大大推动了评估其性能和行为的研究工作。随着这些模型的规模和复杂性不断增长,评估它们在理解文本数据和执行人类通常擅长的复杂推理和解决问题任务方面的能力变得越来越重要。ToxiGen(2022)和BOLD(2021)评估语言模型中的偏差。对数十种语言模型进行了整体评估(最高可达InstructGPT(2022))上的几个先前的NLP任务和文本分类(Clark等人,2019年),专注于模型行为分析。然而,这项工作并不涵盖最新的LLM,如ChatGPT和GPT-4,并且评估主要是在人工策划的NLP数据集上进行的,而不是用于测试人类的真实场景。认识到这一局限性,最近的报告强调了在以人为本的情况下进行评价的重要性。例如,Choi等人(2023)使用法学院的作文题评估了ChatGPT的表现。最近的报告开始研究GPT-4的功能,如Bubeck等人(2023)和OpenAI(2023)。GPT-4的官方技术报告(OpenAI,2023)也强调了评估模型在人类考试中的行为的重要性,并分析了GPT-4在几个此类考试中的表现。然而,这些报告中的相关基准和相应的模型产出并不公开,评价尺度也不透明。这些因素限制了进一步的研究,以跟踪其评价并进行直接比较。为了弥合这一差距,我们提出了AGIEval,它从高标准的官方人类考试中收集问题,并支持标准化的自动评估指标

是否有进一步可以改进的地方

  • “人类试题作为测量基准”不一定是最有效的,很有可能存在数据污染的可能。
  • 试题分类可以更多元
  • 寻找主观题的评测方式

总结

论文提出了一个新的数据集,主要是标准化考试的问题,通过Zero-Shot、Zero-Shot CoT、Few-Shot、Few-Shot CoT四种不同的实验设置展示了Few-shot、CoT对问答精度的提升,此外还通过测评ChatGPT对理解、知识、推理、计算能力四个维度能力,分析了当前ChatGPT存在的一些缺点。

  • 38
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值