论文翻译:arxiv-2024 ConStat: Performance-Based Contamination Detection in Large Language Models

ConStat: Performance-Based Contamination Detection in Large Language Models
https://arxiv.org/abs/2405.16281

ConStat:基于性能的大型语言模型污染检测

摘要

公共基准测试在评估大型语言模型(LLM)中起着至关重要的作用。然而,数据污染可能导致性能虚高,使它们在模型比较中变得不可靠。因此,检测污染并估计其对测量性能的影响至关重要。不幸的是,现有的检测方法容易被规避,并且无法量化污染。为了克服这些限制,我们提出了一种新的污染定义,即人为夸大且不具有泛化能力的基准测试性能,而不是将基准测试样本包含在训练数据中。这种观点使我们能够检测任何性能虚高的模型,即不泛化到重新表述的样本、来自相同分布的合成样本或同一任务的不同基准测试的性能。基于这一洞察,我们开发了ConStat,这是一种通过比较主要基准测试与参考基准测试相对于一组参考模型的性能来可靠检测和量化污染的统计方法。我们在多种模型架构、基准测试和污染场景的广泛评估中展示了ConStat的有效性,并发现包括MISTRAL、LLAMA、YI和前三名Open LLM Leaderboard模型在内的多个流行模型存在高水平的污染。

1 引言

随着大型语言模型(LLM)在广泛任务上越来越有效,许多公司和研究机构竞相开发更好的模型。为了促进这种发展,提出了各种基准测试,允许在不同任务中对模型性能进行标准化深入比较。
数据污染:现代LLM是在大量互联网源数据上训练的,这增加了无意中将基准测试样本包含在训练集中的风险。这种数据污染可能导致人为夸大的基准测试性能,无法准确反映模型对未见任务的真实泛化能力。然而,模型提供商认为这种污染对模型性能的影响微不足道,当前训练集的巨大规模几乎保证了一定程度的污染。这使得这种传统污染定义在LLM背景下的相关性受到质疑。
本工作:数据污染的新视角:我们提出了一种新的污染视角,基于其对模型性能的影响而不是其原因来定义污染。具体来说,我们将污染定义为人为夸大的、不具有泛化能力的性能,即我们说一个模型被污染了,当且仅当其相对于其他模型在原始基准测试上的性能显著高于类似参考基准测试上的性能。这个定义抓住了污染问题的本质,即性能测量变得不可靠,无法用于模型比较。
此外,它使得检测方法能够抵御恶意提供商的规避攻击,因为这将需要泛化性能改进。
在这里插入图片描述

图1:我们方法的概述。我们首先选择要检查污染的模型,然后选择参考模型和基准测试,最后计算ConStat以检测和量化污染。

传统的污染检测方法旨在检测训练数据中基准测试样本的包含情况作为污染的衡量标准。然而,这些方法成功率有限,无法量化污染对模型性能的影响,并且必须对污染过程做出严格的假设,使它们容易被规避。
本工作:污染的统计测试:相比之下,我们利用我们新的基于性能的数据污染定义,提出了一种名为ConStat的统计污染测试,如图1所示。给定一个要检查污染的目标模型(M1或M2)(图1的第一步),我们选择一组参考模型进行性能比较和一个与原始基准测试D相似的参考基准测试Dref(第二步)。这个参考基准测试可以是原始基准测试的重新表述版本,也可以是从相同分布生成的合成基准测试,或者是衡量同一任务性能的不同基准测试。然后我们在两个基准测试D和Dref上评估参考模型,并拟合难度校正函数HDref,描述参考和原始基准测试之间的性能关系(蓝色曲线)。通过在目标模型在参考基准测试上的性能上评估HDref,我们预测其在原始基准测试上的预期性能(第三步)。最后,我们计算这个预期性能与模型在原始基准测试上的实际性能之间的差异δ。使用自助法,我们获得了污染程度δ的估计值和一个p值,该p值量化了在零假设(目标模型未被污染)下观察到的性能差异的可能性(第四步)。在示例案例中,模型M1在参考基准测试上达到60%,这转化为在原始基准测试上的预期性能为37%。然而,测量的72%性能表明存在大的污染效果δ1 = 35%,因此污染严重,p值为0.01%。相比之下,模型M2没有污染迹象。

评估:我们在广泛的污染场景和模型架构上评估ConStat,证明它在检测污染方面比任何先前的方法都有效得多。然后我们使用ConStat研究了一系列流行的开放和专有模型,并发现MISTRAL-7b-v0.1、LLAMA-3-70b、LLAMA-2-INSTRUCT-70b、YI-34b和一系列顶级Open LLM Leaderboard模型存在高水平的污染。

主要贡献:我们的主要贡献是:
• 我们提出了一种新的基于性能的基准测试污染定义(第2节)。
• 我们引入了ConStat,一种检测和量化语言模型中污染的统计测试(第3节)。
• 我们通过在各种污染场景中的广泛评估,实证展示了ConStat的有效性(第4.2节)。
• 我们利用ConStat研究了一系列流行的模型,并发现MISTRAL、LLAMA、YI和前三名Open LLM Leaderboard模型存在污染(第4.3-4.5节)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值