引言
随着人工智能技术的迅速发展,大型语言模型(Large Language Models, LLMs)在各种自然语言处理任务中展现出了惊人的能力。然而,伴随着这些模型的成功,一个日益严重的问题也浮出水面——数据污染(Data Contamination)。本文将深入探讨数据污染的概念、分类以及它对模型评估的潜在影响。
数据污染指的是评估数据集中的部分或全部内容出现在模型的预训练语料中,这可能会导致模型性能被不当夸大。随着互联网数据被广泛用于模型预训练和评估,数据污染的风险大大增加。例如,GPT-3和C4训练语料中就被发现包含了多个基准测试集的数据(Dodge et al., 2021; Raffel et al., 2020; Brown et al., 2020)。这一发现引发了人们对许多预训练模型评估分数有效性的严重质疑(Lee et al., 2022; Chang et al., 2023b)。
为了更好地理解和应对数据污染问题,我们需要一个清晰的分类框架。本文将提出一种数据污染的分类方法,并通过实验探讨不同类型污染对下游任务性能的影响。
数据污染的定义与分类
数据污染的定义
我们将数据污染定义为:任何信息泄露,为测试集D中至少一个样本提供了正确标签的信号。当污染发生时,部分预训练数据可以被描述为测试集D的某个函数f(D)的结果。这个函数f可能是多个污染函数的组合:f = f(1) ◦ f(2) ◦ · · · ◦