论文翻译：arxiv-2024 Generalization or Memorization: Data Contamination and Trustworthy Evaluation for

CSPhD-winston-杨帆

已于 2024-09-09 10:20:11 修改

阅读量689

点赞数 18

分类专栏： LLMs-数据污染论文翻译文章标签：人工智能

于 2024-09-07 11:17:38 首次发布

本文链接：https://blog.csdn.net/WhiffeYF/article/details/141992837

版权

论文翻译同时被 2 个专栏收录

65 篇文章 0 订阅

订阅专栏

LLMs-数据污染

22 篇文章 0 订阅

订阅专栏

Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models
https://arxiv.org/abs/2402.15938

泛化还是记忆：大型语言模型的数据污染和可信评估

摘要

关于大型语言模型（LLMs）令人印象深刻的能力的最近声明通常通过在开放获取的基准测试上进行评估来支持。考虑到LLMs训练数据的庞大规模和广泛来源，它可能明确或隐含地包括测试数据，导致LLMs更容易受到数据污染。然而，由于训练数据的不透明性、模型的黑箱访问以及合成训练数据的快速增长，检测和减轻LLMs的数据污染面临重大挑战。在本文中，我们提出了CDD，即通过LLMs的输出分布进行污染检测。CDD只需要采样文本来检测数据污染，通过识别LLM输出分布的峰值度。为了减轻评估中数据污染的影响，我们还提出了TED：通过输出分布进行可信评估，基于LLM输出分布的校正。为了促进这项研究，我们引入了两个基准测试，即DETCON和COMIEVAL，用于数据污染检测和污染减轻评估任务。广泛的实验结果表明，CDD在准确性、F1分数和AUC指标方面比其他污染检测方法平均提高了21.8%-30.2%，并且能够有效检测隐性污染。TED在各种污染设置中显著减轻了高达66.9%的由于数据污染而带来的性能提升。在现实世界的应用中，我们揭示了ChatGPT在HumanEval基准测试上遭受数据污染的高潜力。

1 引言

近年来，LLMs已经彻底改变了自然语言处理（NLP）、人工智能和软件工程领域。为了评估LLMs在各种下游任务中的性能，如自动问题回答、自然语言推理和代码生成，人们基于大量的基准数据集对LLMs进行了广泛的测试。结果表明，LLMs在这些任务上表现出色。在对LLMs的强大能力感到惊叹的同时，人们通常想要确定LLM的优异性能是由于真正理解任务以实现概括，还是仅仅因为它已经看到了测试数据以形成记忆，即遭受数据污染。
数据污染，也称为数据泄露，指的是测试数据已经被包含在模型的训练数据中，导致模型在这些泄露的测试数据上表现异常出色。由于LLMs预训练数据集的庞大规模和广泛来源，它们更容易受到数据污染，这主要可以归为两种情况：1）对于现有的基准数据集，由于LLMs训练数据中的大量文本引用、代码重用和合成数据，它们更容易泄露。2）对于即将到来的基准数据集，新构建的测试数据可能已经存在于LLMs不断演变的训练数据中，因为人们通常不了解LLMs训练数据的具体情况。因此，防止LLMs的数据污染变得非常困难。
数据污染对LLMs产生了深远而有害的影响。如图1所示，随着LLMs继续在污染的数据（即泄露的数据和其他训练数据）上学习，它们在泄露的数据上的性能不断提高，但在类似数据上却停滞甚至下降。这个例子反映了数据污染可能导致模型性能的大幅高估，从而影响LLMs在实际应用中的可信度和有效性。此外，数据污染还可能掩盖模型的潜在缺陷，为人们识别和改进LLMs的不足之处带来重大障碍。因此，对于LLMs来说，检测数据污染并确保可信评估至关重要。
尽管认识到其重要性，LLMs的数据污染检测和可信评估仍然是开放和具有挑战性的问题。数据污染检测的困难可以主要归因于三个因素：1）不透明的训练数据。它通常是非公开的和全面的，同时对新的LLMs不断演变。2）黑箱模型。LLMs的参数和输出概率可能不可用，如ChatGPT和GPT-4。3）合成数据的激增。它可能隐含地将测试数据的变体引入训练数据。此外，评估以减轻数据污染影响的研究几乎没有进行。
在本文中，我们通过提出CDD：通过LLMs的输出分布进行污染检测来克服上述挑战。CDD使用采样文本来识别LLM输出分布的峰值度，以检测数据污染。我们遵循一个假设，即训练可能会改变模型的输出分布，导致训练数据的输出分布更加尖锐，从而使模型在这些数据上倾向于特定的输出。在此基础上，我们还提出了TED：通过输出分布进行可信评估，旨在通过校正LLM的输出分布来减轻评估中数据污染的影响。
我们构建了两个新数据集，即DETCON和COMIEVAL，分别用于数据污染检测和污染减轻评估任务。实验结果表明，CDD实现了最先进的性能，也适用于识别隐性污染，即测试数据的变体存在于训练数据中。TED成功地在各种情况下减轻了数据污染在评估中的影响。此外，我们还提供了强有力的证据表明ChatGPT在HumanEval数据集上遭受数据污染。
在这里插入图片描述