论文翻译：arxiv-2024 Data Contamination Can Cross Language Barriers

CSPhD-winston-杨帆

已于 2024-10-19 00:28:17 修改

阅读量1k

点赞数 23

分类专栏： LLMs-数据污染论文翻译文章标签：人工智能深度学习机器学习

于 2024-09-07 16:13:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WhiffeYF/article/details/141997427

版权

论文翻译同时被 2 个专栏收录

114 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

LLMs-数据污染

61 篇文章

订阅专栏

Data Contamination Can Cross Language Barriers
https://arxiv.org/abs/2406.13236

数据污染可以跨越语言障碍

文章目录

数据污染可以跨越语言障碍
摘要
1 引言

摘要

在开发大型语言模型（LLMs）的过程中存在的不透明性，引发了对预训练数据中公共基准测试潜在污染的日益关注。现有的污染检测方法通常基于训练和评估数据之间的文本重叠，这可能过于表面化，无法反映更深层次的污染形式。在本文中，我们首先提出了一种跨语言的污染形式，它在逃避当前检测方法的同时，通过过度拟合LLMs在基准测试集的翻译版本上来夸大LLMs的性能。然后，我们提出了基于泛化的方法来揭示这种深层次隐藏的污染。具体来说，我们检查了通过用其他问题的正确答案替换原始基准中的虚假答案选择后，LLM的性能变化。受污染的模型很难泛化到这种更简单的情况，其中错误的选择甚至可能不是错误，因为所有选择在它们的记忆里都是正确的。实验结果表明，跨语言污染可以轻易欺骗现有的检测方法，但无法欺骗我们的。此外，我们讨论了跨语言污染在解释LLMs工作机制和在训练后增强LLMs多语言能力的潜在用途。我们使用的代码和数据集可以从以下网址

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

CSPhD-winston-杨帆 给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。