论文翻译:ACL-2022 Data Contamination: From Memorization to Exploitation

Data Contamination: From Memorization to Exploitation
https://aclanthology.org/2022.acl-short.18/

数据污染:从记忆到利用

摘要

预训练语言模型通常在基于网络的大规模数据集上进行训练,这些数据集往往与下游测试集“污染”。目前尚不清楚模型在多大程度上利用这些污染数据来完成下游任务。我们提出了一种有原则的方法来研究这个问题。我们在维基百科和标记的下游数据集的联合语料库上预训练BERT模型,并在相关任务上对其进行微调。比较预训练期间见过和未见过的样本的性能,使我们能够定义和量化记忆和利用的水平。两个模型和三个下游任务的实验表明,在某些情况下存在利用,但在其他情况下,模型记忆了污染数据,但没有利用它。我们展示了这两个度量受到不同因素的影响,例如污染数据的重复次数和模型大小。我们的结果强调了分析大规模网络级数据集的重要性,以验证在自然语言处理(NLP)中取得的进步是通过更好的语言理解而不是更好的数据利用获得的。

1 引言

预训练语言模型越来越大,它们在训练阶段记忆数据的能力也越来越强(Carlini等人,2021)。这些模型的一个日益关注的问题是“数据污染”——即下游测试集进入预训练语料库。例如,Dodge等人(2021)检查了五个基准测试,并发现所有基准测试在C4语料库(Raffel等人,2020)中都有一定程度的污染;Brown等人(2020)标记了GPT-3超过90%的下游数据集为污染。由于预训练语料库的规模使得研究它们变得困难(Kreutzer等人,2022;Birhane等人,2021),甚至去重也不是一件简单的事情(Lee等人,2021),目前尚不清楚数据污染在多大程度上影响下游任务的性能。

本文提出了一种有原则的方法来以受控的方式解决这个问题(见图1)。我们关注分类任务,在这些任务中,实例与其金标准标签一起出现在预训练语料库中。我们在一般语料库(例如,维基百科)与下游任务的标记训练和测试样本(称为见过的测试样本)的组合上预训练一个掩蔽语言模型(MLM)(例如,BERT;Devlin等人,2019)。然后,我们在同一标记训练集上对模型进行微调,并比较见过的实例和未见过的实例(后者在预训练中未观察到)的性能。我们将见过和未见过之间的差异称为利用。我们还通过比较MLM模型在预测见过和未见过示例的掩蔽标签时的性能来定义记忆度量。我们研究了这两个度量之间的联系。

我们将我们的方法应用于BERT基础版和大型版,并在三个英文文本分类和自然语言推理(NLI)数据集上进行实验。我们展示了存在利用,并受到各种因素的影响,例如模型遇到污染的次数、模型大小和维基百科数据的数量。有趣的是,我们展示了记忆并不保证利用,而且诸如污染数据在预训练语料库中的位置和学习率等因素会影响这两个度量。我们得出结论,预训练期间看到的标签可以在下游任务中被利用,并敦促其他人继续开发更好的方法来研究大规模数据集。据我们所知,我们的工作是第一个以受控方式研究利用水平的工作。
在这里插入图片描述

图1:我们在维基百科以及下游任务(例如,SST)的标记训练和测试集(称为见过的)上预训练BERT。然后,我们在同一任务的训练集上对模型进行微调。我们比较预训练期间见过和未见过的样本的性能,以量化预训练中见过的标签的记忆和利用水平。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值