论文翻译:arxiv-2024 Data Contamination Can Cross Language Barriers

Data Contamination Can Cross Language Barriers
https://arxiv.org/abs/2406.13236

数据污染可以跨越语言障碍

摘要

在开发大型语言模型(LLMs)的过程中存在的不透明性,引发了对预训练数据中公共基准测试潜在污染的日益关注。现有的污染检测方法通常基于训练和评估数据之间的文本重叠,这可能过于表面化,无法反映更深层次的污染形式。在本文中,我们首先提出了一种跨语言的污染形式,它在逃避当前检测方法的同时,通过过度拟合LLMs在基准测试集的翻译版本上来夸大LLMs的性能。然后,我们提出了基于泛化的方法来揭示这种深层次隐藏的污染。具体来说,我们检查了通过用其他问题的正确答案替换原始基准中的虚假答案选择后,LLM的性能变化。受污染的模型很难泛化到这种更简单的情况,其中错误的选择甚至可能不是错误,因为所有选择在它们的记忆里都是正确的。实验结果表明,跨语言污染可以轻易欺骗现有的检测方法,但无法欺骗我们的。此外,我们讨论了跨语言污染在解释LLMs工作机制和在训练后增强LLMs多语言能力的潜在用途。我们使用的代码和数据集可以从以下网址获得:https://github.com/ShangDataLab/Deep-Contam。

1 引言

当前大型语言模型(LLMs)的预训练数据默认是不公开的,即使是那些开源模型(Meta, 2024; Jiang et al., 2024a)。随着在流行基准测试上的得分不断达到新高,它们在解决现实世界任务方面的表现似乎与排行榜(Beeching et al.,2023)不一致。这种训练的不透明性和用户体验的不一致性,引起了人们对预训练数据中公共基准测试潜在污染的越来越多的关注,这表明一些LLMs可能只是在没有真正理解的情况下记忆难题的答案。

现有的研究通常基于预训练和评估数据之间的文本重叠或n-gram重复来定义和检测污染(Chowdhery et al., 2023; Touvron et al., 2023; Jiang et al., 2024b),这些方法只关注文本数据的表面形式,而没有考虑污染中更深层次的知识或语义。我们认为,污染的本质不是表面的文本记忆,而是不具有泛化能力的知识和能力的非泛化记忆。

为此,我们提出了一种跨语言的污染形式,它可以在不被当前检测方法发现的情况下显著提高LLMs的基准测试性能。跨语言意味着模型在其他语言上受到污染,然后在接受英语测试集评估时被污染。如图1所示,我们通过故意过度拟合LLMs来记忆基准测试集的翻译版本,从而注入这种深层次的污染。具体来说,我们对两个多语言模型LLaMA3-8B(Meta, 2024)和Qwen1.5-7b(Bai et al., 2023)进行了持续的预训练,使用了三种流行的基准测试——MMLU(Hendrycks et al., 2020)、ARC Challenge(Clark et al., 2018)和MathQA(Amini et al., 2019)的翻译版本,这些翻译版本涵盖了七种不同的语言。如图2所示,在注入跨语言污染后,两个模型在原始基准测试上的性能都有了显著提升。同时,我们采用了基于模型完成(Oren et al., 2023; Xu et al., 2024)和LLM判断(Golchin和Surdeanu, 2023)的最新检测方法来测试它们的污染情况。不幸的是,这些方法只能识别出普通的污染,而不能识别跨语言污染。为了揭示这种深层次的污染,我们首先检查现有的检测方法以识别其局限性,然后提出解决方案。当前的方法主要基于文本重叠,要么检查预训练和评估数据之间的字符串匹配(Deng et al., 2023; Li, 2023b; OpenAI, 2023; Touvron et al., 2023; Riddell et al., 2024),要么比较模型在给定控制提示时的输出文本或概率与评估数据。这些方法的核心思想是验证模型是否已经看到或记忆了特定的文本表面形式,我们认为这过于表面化,无法反映污染的本质。

相反,我们认为污染检测应该关注模型泛化到未见数据的能力,而不是测试它是否记忆了某些文本。例如,在跨语言场景中,模型没有记忆基准测试的具体英语形式,但仍然可以从其他语言的污染中获得相应知识的非泛化记忆。在这种情况下,如果我们仍然审查对英语基准测试的记忆,检测结果将是不靠谱的。因此,我们提出了基于泛化的检测方法,通过修改问题和答案选择来检查模型在原始基准测试的泛化版本上的性能变化。具体来说,对于每个问题,我们用其他问题的正确选择替换所有不正确的选择。通过这种操作,真正理解问题模型应该能够取得更好的性能,因为有些选择对问题来说甚至可能不是错误,而受污染的模型可能会混淆,因为所有选择都被记忆为正确。广泛的实验结果证明了我们提出的方法在检测跨语言污染方面的有效性。

此外,我们对跨语言污染如何能够提高LLMs的性能以及我们如何能够将其用于评估之外的用途感到好奇。因此,我们讨论了它与LLMs的可解释性以及通过后训练增强LLMs多语言能力的联系。

总结来说,我们的贡献有三个方面:
(1) 我们识别了一种逃避现有检测方法的跨语言污染形式(§ 3)。
(2) 我们提出了基于泛化的检测方法来揭示这种深层次的污染(§ 4)。
(3) 我们讨论了跨语言污染对解释LLMs工作机制以及通过后训练提高它们的多语言能力的潜在影响(§ 5)。
在这里插入图片描述

图1:通过预训练LLMs记忆文本,比较注入普通和跨语言污染的MMLU数据集。现有的基于文本重叠的方法只能检测到普通污染,而不能检测到跨语言污染。在这里,翻译可以是除法语以外的各种语言。
在这里插入图片描述

图2:跨语言污染在不同语言中实现的最高性能提升。所有语言的结果都在§ 3.2中显示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值