论文翻译:ICLR-2024.Oren.PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

PROVING TEST SET CONTAMINATION IN BLACK BOX LANGUAGE MODELS

Oren等人交换了一些基准测试中问题的顺序,并用生成新数据的方式测试模型,作为检测数据泄露的一种方法。 来自:论文翻译:arxiv-2024 Training on the Benchmark Is Not All You Need

https://openreview.net/forum?id=KS8mIvetg2

验证测试集污染在黑盒语言模型中

摘要

大型语言模型是在大量互联网数据上训练的,这引发了人们的担忧和猜测,即它们可能已经记住了公共基准测试。从猜测到证明污染的存在是具有挑战性的,因为专有模型使用的预训练数据通常并不公开。我们展示了一种方法,可以在不访问预训练数据或模型权重的情况下,为语言模型提供可证明的测试集污染保证。我们的方法利用了一个事实,即如果没有数据污染,所有可交换基准测试的排序都应该同样可能。相比之下,语言模型倾向于记忆示例顺序,这

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值