论文翻译:ACL-2024 S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Model

S3Eval: A Synthetic, Scalable, Systematic Evaluation Suite for Large Language Model
https://aclanthology.org/2024.naacl-long.69/

S3Eval: 一个综合、可扩展、系统的评估套件,用于大型语言模型

摘要

大型语言模型(LLMs)的快速发展在模型能力上取得了巨大进步,如长文本理解和推理。然而,随着LLMs能够处理更长的上下文,评估它们是否获得了某些能力变得更加具有挑战性,因为它们能够处理的文本长度(例如,200K个标记)远远超过了人类在合理时间内可靠评估的范围。在本文中,我们提出了使用复杂的合成任务作为代理评估方法,并介绍了S3EVAL,这是一个综合、可扩展、系统的LLMs评估套件。S3EVAL的合成特性为用户提供了对数据集的完全控制,允许他们通过扩展文本长度和在不同场景中变化任务难度来系统地探测LLMs的能力。S3EVAL与现实世界基准测试之间的强相关性证明了使用S3EVAL进行LLMs评估的合理性。S3EVAL提供了一种灵活且无限长的上下文数据生成方法。我们已经生成了一个名为S3EVAL-Standard的综合数据集,实验结果表明它对所有现有的LLMs构成了重大挑战。我们的代码可在https://github.com/lfy79001/S3Eval上获得。

1 引言

大型语言模型(LLMs)极大地推动了自然语言处理(NLP)的重要进展,如OpenAI GPT(Brown等人,2020年)、Llama(Touvron等人,2023a,b)、StarCoder(Li等人,2023a)等。这些模型在许多NLP任务中表现良好,并声称在推理、长文本理解等高级能力上取得了进步。然而,现有的基准测试(Chang等人,2023年)在评估极长上下文的LLMs或分析LLMs的可控特性和局限性时常常失败。

对于长文本理解,以往的工作通常使用语言建模指标的范围(即,困惑度)(Sun等人,2021年;Peng等人,2023年)或在简单的人工任务上的表现(Li和Roth,2002年;Berant等人,2013年;Mohtashami和Jaggi,2023年)来评估LLMs。有一种广泛使用的评估方法称为“大海捞针”(Kamradt,2023年),如图1所示。在这种方法中,一个关键信息被隐藏在一份冗长的文档中,类似于一个干草堆,模型的目标是定位并检索这个隐藏的关键信息。然而,这些评估任务往往缺乏复杂性,并且过于专注于简单的理解,这与现实世界下游应用所需的复杂性不匹配。

尽管最近的工作在构建具有现实世界用例的更长上下文长度的评估基准测试方面取得了巨大进展(例如,问答)(Bai等人,2023b;An等人,2023年),但这些手动注释的数据集往往缺乏规模和多样性,无法彻底评估在扩展上下文长度上的性能。例如,现有的基准测试在有效评估声称能够处理长达100K个标记上下文的LLMs时遇到困难,因为人类对非常长文本的注释能力有限。开发更具可扩展性和多样性的评估数据集,可能利用自动化监督,仍然是一个开放的挑战。

对于推理分析(Hendrycks等人,2021b;Chen等人,2021a;Suzgun等人,2023;Zhong等人,2023),对答案和推理过程进行定性和定量分析提供了重要的洞察。然而,现有的基准测试缺乏精确控制数据集分布的能力,限制了它们在深入研究分析中的实用性。换句话说,这些基准测试的性质使得开发人员难以识别他们LLMs的具体弱点。需要更多可配置和细粒度的基准测试,以便对模型性能进行详细分析。此外,这些基准测试通常从已经广泛研究并可能在LLMs的训练语料库中使用的NLP任务中提取评估数据。潜在的数据泄露使得评估不太令人信服。在本文中,我们提出了一个新的评估套件,称为S3EVAL,它通过使用复杂的合成任务——SQL执行——作为LLMs在现实推理任务上性能的代理来解决上述问题。如图2所示,受到TAPEX(Liu等人,2022年)工作的启发,S3EVAL基于SQL执行任务。特别地,给定一个随机生成的表和一个随机SQL查询,S3EVAL评估LLMs是否能够返回正确的执行结果。S3EVAL有三个显著特点:(1)它是合成的,LLM训练语料库中没有表格或SQL查询。任务使用复杂的、语法正确的SQL语法,使它们非常具有挑战性。(2)它是可扩展的,允许用户自定义基准测试的长度和难度。(3)它是系统的,包含多样化的推理类型和操作。这使得对LLMs能力的全面评估成为可能。

凭借这些强大的功能,开发人员可以使用S3EVAL将上下文扩展到真正的长长度,并生成有意义的SQL语句。我们对几种流行的LLMs使用S3EVAL进行了全面的多角度实验。实验结果表明,LLMs在S3EVAL上的表现与它们在主流LLMs基准测试上的表现非常一致。虽然LLMs已经展示了令人印象深刻的能力,但我们的工作揭示了它们在利用长上下文方面的能力限制,因为我们观察到几乎所有LLMs在长上下文设置中的表现都有所下降。通过仔细研究实验结果,我们可以努力找出LLMs倾向于失败的情况,并总结宝贵的见解。

在LLMs快速发展的时代,S3EVAL最重要的贡献在于其作为长上下文评估方法的有效性。能够生成无限长度的评估数据,它确保评估不仅是合理的,而且足够具有挑战性。
在这里插入图片描述

图1:大海捞针不能展示模型在真实任务下的表现,但S3EVAL可以。与大海捞针相比,S3EVAL与真实基准测试更相关,也更难。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值