论文翻译：arxiv-2024 Investigating Data Contamination for Pre-training Language Models

CSPhD-winston-杨帆

已于 2024-09-08 09:58:49 修改

阅读量905

点赞数 8

分类专栏： LLMs-数据污染论文翻译文章标签：语言模型人工智能深度学习

于 2024-09-07 11:12:41 首次发布

本文链接：https://blog.csdn.net/WhiffeYF/article/details/141992523

版权

论文翻译同时被 2 个专栏收录

65 篇文章 0 订阅

订阅专栏

LLMs-数据污染

22 篇文章 0 订阅

订阅专栏

Investigating Data Contamination for Pre-training Language Models
https://arxiv.org/abs/2401.06059

预训练语言模型的数据污染调查

摘要

在网络规模的语料库上预训练的语言模型在多种下游任务上展示了令人印象深刻的能力。然而，人们越来越担心这些能力是否可能源于评估数据集包含在预训练语料库中——这种现象被称为数据污染——以一种人为提高性能的方式。目前对于这种潜在污染如何影响语言模型在下游任务上的性能还知之甚少。

在本文中，我们通过从头开始预训练一系列GPT-2模型，探索了预训练阶段数据污染的影响。我们强调了评估数据的文本污染（即评估样本的输入文本）和真实污染（即对输入的提示和期望输出）的影响。我们还研究了对各种下游任务重复污染的效果。此外，我们检验了当前大型语言模型报告中普遍使用的基于n-gram的数据污染定义，指出了它们的局限性和不足。我们的发现为数据污染对语言模型能力的影响提供了新的见解，并强调了在大型语言模型研究中进行独立、全面的污染评估的必要性。

1 引言

大型语言模型（LLMs）的性能主要归因于它们的巨大规模和来自大型文本语料库的预训练数据的不断增加[29, 2, 27, 6, 1, 33, 34]。然而，一个尚未充分探索的关键方面是预训练语料库可能被评估数据污染。这一疏忽在准确评估LLMs的能力以及其他科学分析它们的行为方面带来了挑战。自从预训练语言模型首次引入以来，预训练语料库的污染分析的重要性就已经被认识到[7, 29, 6]；然而，今天大多数预训练语料库的公共访问受限，这使得全面理解和识别污染对模型性能和行为的影响变得复杂。

最近的LLM报告[29, 2, 6, 27, 34, 11]从不同角度调查了预训练语料库中评估数据的污染。其中一些研究对其污染调查提供了有限的细节，特别是对于闭源模型[29, 27]。其他研究[29, 27, 2, 6, 34]则尝试在评估层面调查数据污染，将评估数据集事后分类为污染和非污染块，基于提出的污染定义，然后分别对这些块进行模型评估，以证明如果模型在这些块上的表现相似，则模型不易受到数据污染的影响。然而，这一研究线路并没有充分分析预训练层面的污染，即故意改变预训练语料库以研究污染对评估的影响。

评估数据可能以各种格式泄露到预训练语料库中。主要是评估数据集的文本部分（即输入文本）。这一直是许多现有研究的主要关注点（例如[34, 6]）。也有许多情况，预训练语料库可能包含评估数据的真实信息。在这里，我们将评估样本的真实信息视为它们的原始文本加上这些文本上的提示和相应的答案。直观上，涉及真实信息的污染可能对模型性能有不同的影响，而不仅仅是简单的文本污染，但其影响尚未得到充分探索。

另一项最近的研究方向是通过成员推断攻击的视角，从预训练语料库中检测数据污染[21, 22, 10, 28, 31]，这涉及到确定给定文本是否在黑盒模型的预训练数据中。虽然相关，但污染的检测并不一定直接理解它们在评估期间的效果。最近的工作[11, 17]代表了向前迈出的一步，因为它们实施了各种方法，包括基于嵌入的搜索和基于语法的相似性分析，以检测和过滤预训练语料库中的污染，尽管它们主要关注基于代码的数据。

本文通过评估数据集的泄露来调查预训练数据对语言模型的污染效果。我们从头开始预训练一系列GPT-2模型[29]，并考虑评估数据在预训练语料库中的各种污染机制。具体来说，我们提出并回答了三个研究问题：

RQ1：语言模型如何受到预训练语料库中各种形式污染的故意添加的影响？为了回答这个问题，我们在预训练语料库中引入了故意污染（包括和不包括真实信息）（§4.1）。然后，我们在这些不同污染的语料库上从头开始预训练GPT-2-small模型，以评估和比较它们的性能。我们进一步扩展了使用GPT-2-large模型的实验，以评估数据污染对大型模型的影响（§4.4）。
RQ2：评估数据在预训练语料库中的重复次数如何影响性能？在实践中，评估数据在预训练期间出现的次数及其后果也不清楚。我们通过多次将评估数据注入预训练语料库，并提供详细的实证分析（§4.2）来调查这一点。
RQ3：最近LLM报告中使用的基于n-gram的污染定义有多有效？我们系统地过滤掉这些定义描述的不同比例的污染训练文档，并在这些清洁的语料库上预训练相同的模型（§4.3）。此外，我们批判性地评估了当前LLM报告中用于评估层面数据污染评估的方法（§4.5）。这些报告通常认为模型对数据污染具有鲁棒性，我们的讨论旨在阐明这些主张的潜在缺点。

我们在几个常用的公共数据集上评估我们的实验，以定量观察性能差异。我们的分析为理解语言模型预训练中的数据污染提供了新的视角。贡献总结如下：

• 我们通过从头开始预训练语言模型来实证调查评估数据泄露导致的预训练语料库中的数据污染对语言模型的影响，以评估不同机制的数据污染。
• 我们确定了考虑评估数据集的真实信息污染的重要性。令人惊讶的是，我们观察到污染重复次数的增加对模型性能的影响可能是U形的。
• 我们批判性地分析了现有LLM报告中的n-gram数据污染定义，并通过使用这些定义过滤预训练数据进一步比较实证结果。我们的发现表明，它们不足以识别污染。
在这里插入图片描述