论文翻译:arXiv-2023 Rethinking Benchmark and Contamination for Language Models with Rephrased Samples

Rethinking Benchmark and Contamination for Language Models with Rephrased Samples
https://arxiv.org/abs/2311.04850

重新思考带有重新表述样本的语言模型的基准测试和污染问题

摘要

大型语言模型越来越多地在人类产生的所有数据上进行训练。由于预训练或微调数据集中的潜在污染,许多人对公共基准测试的可信度提出了担忧。虽然大多数数据去污染工作应用字符串匹配(例如,n-gram重叠)来删除基准测试数据,但我们表明这些方法是不够的,简单的测试数据变化(例如,释义,翻译)可以轻易绕过这些去污染措施。此外,我们证明如果这种测试数据的变化没有消除,一个13B模型可以轻易地过度拟合一个测试基准,并实现与GPT-4相当的极高性能。我们在广泛使用的基准测试中验证了这样的观察,如MMLU,GSK8k和HumanEval。为了应对这种日益增长的风险,我们提出了一种更强大的基于LLM的去污染方法,并将其应用于流行的预训练和微调数据集,揭示了显著的以前未知的测试重叠。例如,在预训练集如RedPajamaData-1T和StarCoder-Data中,我们确定8-18%的HumanEval基准重叠。有趣的是,我们还在由GPT-3.5/4生成的合成数据集中发现了这种污染,这表明了无意污染的潜在风险。我们敦促社区在使用公共基准测试时采用更强的去污染方法。此外,我们呼吁社区积极开发新鲜的一次性考试,以准确评估模型。我们的去污染工具可在https://github.com/lm-sys/llm-decontaminator上公开获取。

1. 引言

大型语言模型的快速增长能力使得它们的评估比以往任何时候都更具挑战性(Chang等人,2023)。尽管社区在很短的时间内建立了许多基准测试,但基准测试分数并不总是反映在现实世界任务上的性能。有证据表明,许多流行的基准测试可能已经污染了预训练或微调数据集。从Llama-2的污染分析中(Touvron等人,2023),超过10%的MMLU测试样本高度污染。另一个来自GPT-4的技术报告的例子(OpenAI,2023)显示,他们训练数据中有25%的HumanEval被污染。类似的情况也适用于开源数据集。一个流行的代码预训练集,StarCoder Data(Li等人,2023),显示Stack(Kocetkov等人,2022)中的数百个测试用例与基准测试污染。

尽管被公认为一个关键问题,但准确检测污染仍然是一个开放且具有挑战性的问题。最常用的方法是n-gram重叠和嵌入相似性搜索。n-gram重叠依赖于字符串匹配来检测污染,被GPT-4(OpenAI,2023),PaLM(Anil等人,2023)和Llama(Touvron等人,2023)等领先发展广泛使用。然而,它的准确性有限。嵌入相似性搜索使用预训练模型的嵌入(例如,BERT)来寻找相似且可能污染的示例。然而,选择合适的相似性阈值以在召回率和精确度之间取得平衡通常是一个挑战。此外,对于使用LLMs(例如,GPT-4)生成的合成数据进行模型训练的兴趣日益增长(Gunasekar等人,2023;Taori等人,2023;Wang等人,2023b;Xu等人,2023;Mukherjee等人,2023),在这种情况下,通过字符串匹配检测污染可能更加困难。在Phi-1报告中(Gunasekar等人,2023),他们发现合成数据中有相当一部分与HumanEval中的一些测试样本相似,通过n-gram重叠无法检测到。

为了研究去污染方法,在第3节中我们提出了==“重新表述样本”的概念==,它与原始样本具有相同的语义,但现有的污染测试很难检测到。重新表述的样本是通过使用LLMs将测试样本释义或翻译成另一种语言生成的。我们表明,如果使用这样的重新表述样本进行训练,产生的模型可以轻易过度拟合,并在测试基准中达到极高的性能。图1用MMLU基准测试中的一个测试示例展示了这一概念。我们在流行的基准测试中观察到这种现象,如MMLU,GSM-8k和HumanEval,其中微调的13B Llama模型可以匹配GPT-4在所有基准测试中的性能,同时通过n-gram重叠未被检测到污染,如图2所示。因此,能够检测到这种重新表述的样本变得至关重要。我们深入分析了现有去污染方法失败的原因,并在第4节中提出了一种新的基于LLM的去污染方法。我们的方法首先使用嵌入相似性搜索获取与给定测试样本最相似的前k个样本,然后提示一个强大的LLM,如GPT-4,检查前k个样本中是否有任何一个与测试用例过于接近。结果表明,我们提出的LLM去污染器比现有方法显著更好。

在第5.3节中,我们将我们的去污染器应用于几个广泛使用的预训练和微调数据集。我们成功揭示了以前未知的测试重叠。如图3所示,在预训练集如RedPajama-Data-1T和StarCoder-Data中,我们确定8-18%的HumanEval基准重叠。我们还发现由GPT-3.5生成的合成数据集CodeAlpaca(Chaudhary,2023)有相当一部分(12.8%)来自HumanEval的重新表述样本。这表明在使用LLMs生成的合成数据进行训练时存在潜在的污染风险。我们敦促社区采用更强大的去污染方法来评估使用公共基准测试的LLMs。为了从根本上解决这些问题,我们倡导开发新鲜的一次性考试,类似于Codeforces和Kaggle竞赛,以准确评估LLMs。
在这里插入图片描述

图1:在MMLU基准测试中,现有污染检测方法(n-gram重叠,嵌入相似性)的失败案例。我们放置了一个问号,因为嵌入相似性方法难以区分重新表述的问题与同一主题(美国高中历史)中的其他问题。在重新表述MMLU测试用例后,一个在重新表述的测试集上训练的Llama-2-13B可以达到85.9的MMLU准确率,同时通过n-gram重叠无法检测到。
在这里插入图片描述

图2:在重新表述的样本上微调后,Llama 2和CodeLlama实现了与GPT-4相当的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值