论文翻译:ICLR-2024 TIME TRAVEL IN LLMS: TRACING DATA CONTAMINATION IN LARGE LANGUAGE MODELS

TIME TRAVEL IN LLMS: TRACING DATA CONTAMINATION IN LARGE LANGUAGE MODELS
https://openreview.net/forum?id=2Rwq6c3tvr

时间旅行在大型语言模型中:追踪大型语言模型中的数据污染

摘要

数据污染,即在大型语言模型(LLMs)的训练数据中存在下游任务的测试数据,是衡量LLMs在其他任务上真实有效性的潜在重大问题。我们提出了一种简单但有效的识别LLMs中数据污染的方法。我们的方法核心是从实例级别开始识别潜在污染;利用这些信息,我们的方法接着在分区级别评估更广泛的污染。为了估计单个实例的污染,我们采用了“引导指令”:一个提示,包括数据集名称、分区类型和参考实例的随机长度初始片段,要求LLM完成它。如果LLM的输出与参考的后半部分完全或几乎匹配,则将该实例标记为污染。为了理解整个分区是否受到污染,我们提出了两个想法。第一个想法是,如果与参考实例的平均重叠分数(通过ROUGE-L或BLEURT测量)与“一般指令”相比,在引导指令的完成中统计显著更好,则将数据集分区标记为污染。第二个想法是,如果基于GPT-4的分类器,通过少量上下文学习提示,将多个生成的完成标记为与相应参考实例完全/几乎完全匹配,则将数据集分区标记为污染。我们的最佳方法在检测LLM是否受到七个数据集的污染方面,与人类专家的手动评估相比,准确率在92%到100%之间,这些数据集包含训练和测试/验证分区。此外,我们的发现表明GPT-4受到AG News、WNLI和XSum数据集的污染。

1 引言

Transformer网络(Vaswani等人,2017)的兴起推动了大型语言模型(LLMs)的发展,标志着自然语言处理(NLP)的新纪元。这一转变导致了广泛的LLMs(Touvron等人,2023a;b;Biderman等人,2023;Köpf等人,2023;Chung等人,2022;Penedo等人,2023,等等),在各种专业和学术基准(Bang等人,2023;Bubeck等人,2023)中表现出色。它们的优越性能主要归功于这些数十亿/万亿参数的LLMs在训练期间消耗的大量网络数据。然而,LLMs在许多下游任务(例如,摘要、自然语言推理、文本分类)上观察到的令人印象深刻的性能可能因为数据污染而膨胀,即这些下游任务的测试数据存在于LLMs的预训练数据中。由于两个潜在的污染源,保证没有污染并不简单:直接从数据集的官方版本中摄取(容易控制),以及间接通过在网络某处发现的重复数据(几乎无法控制)。数据污染的潜力,对于封闭模型(如GPT-3/3.5系列(Brown等人,2020)和GPT-4(OpenAI,2023;Bubeck等人,2023))来说,数据污染的潜力尤其相关,不用说,这也引发了对迄今为止进行的评估和基准测试的有效性的问题(Chang等人,2023;Zhu等人,2023;Bordt & von Luxburg 2023;Ray 2023;Penedo等人,2023)。

为了解决这个问题,我们提出了一种廉价且健壮的方法来自动检测给定数据集分区的数据污染。重要的是,我们的方法在两个现实假设下运作:(a)==我们无法直接访问LLMs的预训练数据,以及(b)我们的计算资源有限。==直观地说,我们的方法首先通过识别来自相应数据集分区的小型随机样本中的单个实例中的潜在污染(在这项工作中我们使用10个实例的样本)。利用从单个实例获得的信息,我们的方法接着评估整个数据集分区是否受到污染。

更正式地说,==为了识别单个实例的污染,我们采用了“引导指令”:一个提示,整合了参考实例来源数据集的不同标识符。==这些信息包括数据集名称、其分区(例如,训练、测试或验证),以及参考实例的随机选择的初始部分,并在相关时补充其标签。有了这些提示中的信号,我们指示LLM完成给定的部分实例。

使用这些生成的单个完成,我们提出了两个启发式方法来估计整个数据集分区是否受到污染。第一个启发式方法表明,如果引导指令观察到的生成完成与参考实例之间的平均重叠分数(通过ROUGE-L(Lin 2004)和BLEURT(Sellam等人,2020)测量)统计显著大于“一般指令”测量的分数,后者不包括数据集和分区名称,则分区可能受到污染。第二个启发式方法如果基于GPT-4的分类器,通过少量上下文学习(ICL;Brown等人(2020))将至少一个生成的完成标记为与参考实例完全匹配,或者至少两个生成的完成标记为近乎完全匹配,则将分区标记为污染,其中近乎完全匹配表明与参考实例在语义和词汇上有很大的一致性。

本文的主要贡献如下:
(1) 我们提出了一种新颖的LLMs数据污染检测方法,该方法廉价且健壮。如上所述,我们的方法结合了“引导指令”来完成从调查的数据集分区随机抽取的部分实例,以及几个启发式方法,从实例级到分区级污染决策的概括。
(2) 我们在28个不同的情景中评估了我们提出的方法。这些情景由两个最先进的LLMs:GPT-3.5和GPT-4创建,并涵盖了七个数据集,用于分类、摘要和自然语言推理(NLI)任务。28个情景背后的理念是,对于每个数据集,我们分别探索训练和测试分割(或验证集,在标记的测试集不公开的情况下)中潜在的数据污染。我们的评估表明,我们最好的方法是使用引导指令来完成部分实例,并使用GPT-4少量ICL分类器评估这些完成,与人类专家分配的数据集分区污染标签相比,准确率为92%–100%。
(3) 我们的分析表明,GPT-4在AG News(Zhang等人,2015)、WNLI(Wang等人,2018)和XSum(Narayan等人,2018)数据集的测试分区中显示出污染的证据。这些发现支持了数据污染是一个严重问题的观点,在使用LLMs进行下游评估时必须考虑。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值