论文翻译:arxiv-2024 Data Contamination Can Cross Language Barriers

Data Contamination Can Cross Language Barriers
https://arxiv.org/abs/2406.13236

数据污染可以跨越语言障碍

摘要

在开发大型语言模型(LLMs)的过程中存在的不透明性,引发了对预训练数据中公共基准测试潜在污染的日益关注。现有的污染检测方法通常基于训练和评估数据之间的文本重叠,这可能过于表面化,无法反映更深层次的污染形式。在本文中,我们首先提出了一种跨语言的污染形式,它在逃避当前检测方法的同时,通过过度拟合LLMs在基准测试集的翻译版本上来夸大LLMs的性能。然后,我们提出了基于泛化的方法来揭示这种深层次隐藏的污染。具体来说,我们检查了通过用其他问题的正确答案替换原始基准中的虚假答案选择后,LLM的性能变化。受污染的模型很难泛化到这种更简单的情况,其中错误的选择甚至可能不是错误,因为所有选择在它们的记忆里都是正确的。实验结果表明,跨语言污染可以轻易欺骗现有的检测方法,但无法欺骗我们的。此外,我们讨论了跨语言污染在解释LLMs工作机制和在训练后增强LLMs多语言能力的潜在用途。我们使用的代码和数据集可以从以下网址

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值