论文翻译:arxiv-2024 ConStat: Performance-Based Contamination Detection in Large Language Models

ConStat: Performance-Based Contamination Detection in Large Language Models
https://arxiv.org/abs/2405.16281

文章提出了一个基于性能统计的方法用于检测和量化LLM中的数据污染

ConStat:基于性能的大型语言模型污染检测

摘要

公共基准测试在评估大型语言模型(LLM)中起着至关重要的作用。然而,数据污染可能导致性能虚高,使它们在模型比较中变得不可靠。因此,检测污染并估计其对测量性能的影响至关重要。不幸的是,现有的检测方法容易被规避,并且无法量化污染。为了克服这些限制,我们提出了一种新的污染定义,即人为夸大且不具有泛化能力的基准测试性能,而不是将基准测试样本包含在训练数据中。这种观点使我们能够检测任何性能虚高的模型,即不泛化到重新表述的样本、来自相同分布的合成样本或同一任务的不同基准测试的性能。基于这一洞察,我们开发了ConStat,这是一种通过比较主要基准测试与参考基准测试相对于一组参考模型的性能来可靠检测和量化污染的统计方法。我们在多种模型架构、基准测试和污染场景的广泛评估中展示了ConStat的有效性,并发现

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值