论文翻译：ACL-2022 Data Contamination: From Memorization to Exploitation

CSPhD-winston-杨帆

已于 2024-09-09 10:19:43 修改

阅读量873

点赞数 25

分类专栏： LLMs-数据污染论文翻译文章标签：人工智能深度学习

于 2024-09-07 15:50:55 首次发布

本文链接：https://blog.csdn.net/WhiffeYF/article/details/141997230

版权

论文翻译同时被 2 个专栏收录

65 篇文章 0 订阅

订阅专栏

LLMs-数据污染

22 篇文章 0 订阅

订阅专栏

Data Contamination: From Memorization to Exploitation
https://aclanthology.org/2022.acl-short.18/

数据污染：从记忆到利用

摘要

预训练语言模型通常在基于网络的大规模数据集上进行训练，这些数据集往往与下游测试集“污染”。目前尚不清楚模型在多大程度上利用这些污染数据来完成下游任务。我们提出了一种有原则的方法来研究这个问题。我们在维基百科和标记的下游数据集的联合语料库上预训练BERT模型，并在相关任务上对其进行微调。比较预训练期间见过和未见过的样本的性能，使我们能够定义和量化记忆和利用的水平。两个模型和三个下游任务的实验表明，在某些情况下存在利用，但在其他情况下，模型记忆了污染数据，但没有利用它。我们展示了这两个度量受到不同因素的影响，例如污染数据的重复次数和模型大小。我们的结果强调了分析大规模网络级数据集的重要性，以验证在自然语言处理（NLP）中取得的进步是通过更好的语言理解而不是更好的数据利用获得的。

1 引言

预训练语言模型越来越大，它们在训练阶段记忆数据的能力也越来越强（Carlini等人，2021）。这些模型的一个日益关注的问题是“数据污染”——即下游测试集进入预训练语料库。例如，Dodge等人（2021）检查了五个基准测试，并发现所有基准测试在C4语料库（Raffel等人，2020）中都有一定程度的污染；Brown等人（2020）标记了GPT-3超过90%的下游数据集为污染。由于预训练语料库的规模使得研究它们变得困难（Kreutzer等人，2022；Birhane等人，2021），甚至去重也不是一件简单的事情（Lee等人，2021），目前尚不清楚数据污染在多大程度上影响下游任务的性能。

本文提出了一种有原则的方法来以受控的方式解决这个问题（见图1）。我们关注分类任务，在这些任务中，实例与其金标准标签一起出现在预训练语料库中。我们在一般语料库（例如，维基百科）与下游任务的标记训练和测试样本（称为见过的测试样本）的组合上预训练一个掩蔽语言模型（MLM）（例如，BERT；Devlin等人，2019）。然后，我们在同一标记训练集上对模型进行微调，并比较见过的实例和未见过的实例（后者在预训练中未观察到）的性能。我们将见过和未见过之间的差异称为利用。我们还通过比较MLM模型在预测见过和未见过示例的掩蔽标签时的性能来定义记忆度量。我们研究了这两个度量之间的联系。

我们将我们的方法应用于BERT基础版和大型版，并在三个英文文本分类和自然语言推理（NLI）数据集上进行实验。我们展示了存在利用，并受到各种因素的影响，例如模型遇到污染的次数、模型大小和维基百科数据的数量。有趣的是，我们展示了记忆并不保证利用，而且诸如污染数据在预训练语料库中的位置和学习率等因素会影响这两个度量。我们得出结论，预训练期间看到的标签可以在下游任务中被利用，并敦促其他人继续开发更好的方法来研究大规模数据集。据我们所知，我们的工作是第一个以受控方式研究利用水平的工作。
在这里插入图片描述