Data Contamination Can Cross Language Barriers
https://arxiv.org/abs/2406.13236
数据污染可以跨越语言障碍
文章目录
摘要
在开发大型语言模型(LLMs)的过程中存在的不透明性,引发了对预训练数据中公共基准测试潜在污染的日益关注。现有的污染检测方法通常基于训练和评估数据之间的文本重叠,这可能过于表面化,无法反映更深层次的污染形式。在本文中,我们首先提出了一种跨语言的污染形式,它在逃避当前检测方法的同时,通过过度拟合LLMs在基准测试集的翻译版本上来夸大LLMs的性能。然后,我们提出了基于泛化的方法来揭示这种深层次隐藏的污染。具体来说,我们检查了通过用其他问题的正确答案替换原始基准中的虚假答案选择后,LLM的性能变化。受污染的模型很难泛化到这种更简单的情况,其中错误的选择甚至可能不是错误,因为所有选择在它们的记忆里都是正确的。实验结果表明,跨语言污染可以轻易欺骗现有的检测方法,但无法欺骗我们的。此外,我们讨论了跨语言污染在解释LLMs工作机制和在训练后增强LLMs多语言能力的潜在用途。我们使用的代码和数据集可以从以下网址