论文翻译:ICLR-2024 DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS

DYVAL: DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS FOR REASONING TASKS

https://openreview.net/forum?id=gjfOL9z5Xr

DYVAL:大型语言模型推理任务的动态评估

摘要

大型语言模型(LLMs)在各种评估基准测试中取得了显著的性能。然而,人们对于其庞大的训练语料库中潜在的数据污染问题表示担忧。此外,当前基准测试的静态性质和固定复杂性可能无法充分衡量LLMs不断进步的能力。在本文中,我们介绍了DYVAL,这是一个用于动态评估LLMs的通用且灵活的协议。基于我们的框架,我们构建了图信息DYVAL,利用有向无环图的结构优势来动态生成具有可控复杂性的评估样本。DYVAL在包括数学、逻辑推理和算法问题在内的推理任务上生成了具有挑战性的评估集。我们评估了从Flan-T5-large到GPT-3.5-Turbo和GPT-4的各种LLMs。实验表明,LLMs在DYVAL生成的不同复杂性的评估样本中表现较差,突出了动态评估的重要性。我们还分析了失败案例和不同提示方法的结果。

此外,DYVAL生成的样本不仅是评估集,而且对于微调以提高LLMs在现有基准测试上的性能也很有帮助。我们希望DYVAL能够为LLMs的未来评估研究提供启示。代码可在:https://github.com/microsoft/promptbench 获取。

1 引言

大型语言模型(LLMs)最近在多种任务上取得了前所未有的性能。这一巨大努力引发了对LLMs可能是人工通用智能先驱的积极推测,这就需要创建细致的评估。通过确定改进的差距,评估成为增强对当前模型理解并确保AI持续进步的基石。

评估LLMs的努力已经显著加强。Liang等人(2023)介绍了HELM,它提供了LLM在各种场景中的全面评估。同样,Chatbot Arena(Zheng等人,2023)通过对比他们生成的输出来评估LLMs。其他在LLM评估领域树立标准的基准测试包括AlpacaEval(Li等人,2023c)、C-Eval(Huang等人,2023)、ARB(Sawada等人,2023)、API-Bank(Li等人,2023a)、Socket(Choi等人,2023)和Big-Bench(bench作者,2023)。此外,手动实验已经成为这些基准测试的补充方法,如Bubeck等人(2023)和Bang等人(2023)的工作。补充这些,人类评估者在衡量LLMs的能力方面也发挥了重要作用,如Ziems等人(2023)和Zecevi ˇ c等人(2023)所讨论的。

当前评估基准测试面临两个基本挑战首先,数据污染。许多基准测试的数据来源于互联网,这可能导致与LLMs训练的庞大语料库重叠,引发了“泛化与记忆”的辩论(Bender等人,2021;Magar & Schwartz,2022;Carlini等人,2023;Biderman等人,2023):模型的结果是否源于真正的能力,还是仅仅记忆了训练数据?Zecevi ˇ c等人(2023)提供了一个最近的例子:LLMs可以模糊地推断出高度影响温度的结论,这是基于看到的数据。同样,Berglund等人(2023)发现,训练有素的LLMs在“甲是乙”的情况下无法推断出“乙是甲”,这让人怀疑LLMs的能力可能来自于记忆。其次,静态数据集和固定复杂性。随着LLMs的快速发展,现有数据集通常无法匹配模型不断演变的能力,因为现有基准测试的复杂性水平通常是静态和固定的。正如Dziri等人(2023)所展示的,虽然处理简单问题相当好,但LLMs却无法解决复杂问题。无法根据现有数据自动和动态地增加复杂性水平,阻止了静态基准测试适应准确选择、比较和推进LLMs。尽管有一些现有的动态基准测试,如DynaBench(Kiela等人,2021)和DynaBoard(Ma等人,2021),它们依赖于众包努力进行数据收集,这可能既昂贵又繁琐。

在本文中,我们介绍了DYVAL——一种新颖的、通用的、灵活的LLMs动态评估协议(第3.1节)。DYVAL的核心是动态生成评估样本,而不是收集固定的数据集。DYVAL由三个组件组成:1)生成算法G,用于生成具有多样性的测试样本;2)约束C,用于调节样本的复杂性和有效性;3)描述函数F,将生成的样本翻译成自然语言。基于此框架,我们提出了一个图信息DYVAL(第3.2节,图1),使用图来生成数据。具体来说,受到编译器原理(Alfred V等人,2007)和解析树分解复杂性的技术(Klein & Manning,2003;Vinyals等人,2015)的启发,我们采用有向无环图(DAG)(Thulasiraman & Swamy,2011)将基本元素组合成更复杂的问题,每个单元符号化为一个图节点。图生成的可扩展性和随机性有效地调节了复杂性水平。此外,图的层次属性使它们适合多步推理任务,如逻辑。DYVAL生成的问题不仅需要对问题解决的深刻理解而不仅仅是简单的记忆,而且反映了人类逐步解决问题和推导解决方案的方法。DYVAL通用且灵活,与现有基准测试共存并共同发展,以更好地评估和演变LLMs。

我们利用DYVAL综合了7个推理任务,包括:(1)数学:算术和线性方程;(2)逻辑推理:布尔、演绎和溯因逻辑;(3)算法:可达性和最大和路径问题。然后我们重新检查了从Flan-T5-large(Chung等人,2022)、phi-1.5(Li等人,2023d)、Xwin-13B(Team,2023)、Llama2-13B-chat(Touvron等人,2023)、Vicuna-13B-v1.3(Chiang等人,2023)、WizardMath13B(Luo等人,2023),到GPT-3.5-Turbo(OpenAI,2023a)和GPT-4(OpenAI,2023b)的各种最先进的LLMs。我们还测试了包括Few-shot(Brown等人,2020)、CoT(Wei等人,2022)、Least to Most prompting(Zhou等人,2023b)、Automatic Prompt Engineering(Zhou等人,2023d)和Skills-in-Context prompting(Chen等人,2023)在内的最新提示技术。最后,我们进行了涉及82名人类评估者的人类研究进行比较,并使用DYVAL生成的评估样本进行了微调实验。此外,现有基准测试上的实验也表明,使用DYVAL生成的数据对LLMs进行微调可以直接提高模型的能力,而无需额外仔细收集训练数据(Zhou等人,2023a)。我们进一步通过将DYVAL扩展到附录H中的自然语言任务来展示其灵活性。我们的关键发现是:

DYVAL评估的结果并不总是与现有基准测试的结果一致,这表明现有LLMs的训练数据质量可能较低和/或存在数据污染(第4.2节)。例如,phi-1.5、WizardMath-13B和Xwin-13B在DYVAL上表现不佳,尽管它们声称在现有基准测试上取得了巨大的改进。

随着难度的增加,LLMs的表现趋向于变差,它们的性能差距变得更大,强调了当前LLMs缺乏组合性以及发展复杂性评估的重要性(第4.2节)。

我们基于DYVAL评估的错误分析展示了各种失败模式,这为如何进一步改进LLMs提供了启示(第4.3节)。

没有提示工程方法可以在我们所有的评估集中表现最佳;更大的模型尺寸往往能够取得更好的性能(第4.4节)。

DYVAL可以进一步用于生成训练数据以提高LLMs的能力(第5节)。例如,使用我们DYVAL生成的数据对Llama2模型进行微调,在6个现有基准测试上展示了增强的结果。

总之,本文做出了以下贡献:

  • 一个动态评估协议。DYVAL是一个旨在动态生成测试样本的动态评估协议,减轻了数据污染和静态复杂性的问题。

  • 一个用于评估LLMs推理能力的图信息DYVAL算法。我们使用DAGs来组合7个推理问题,从数学、逻辑推理到算法。

  • 广泛的实验和分析。我们进行了广泛的实验,为评估和改进LLMs提供了见解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值