论文翻译:arxiv-2024 Training on the Benchmark Is Not All You Need

Training on the Benchmark Is Not All You Need
https://arxiv.org/pdf/2409.01790

中科院提出大模型“基准泄露”排行榜,Qwen模型位居榜首

基准测试并非你所需的全部

摘要

大型语言模型(LLMs)的成功在很大程度上依赖于在预训练阶段学习的大量预训练数据。预训练过程的不透明性和训练数据使得许多基准测试的结果变得不可靠。如果任何模型在基准测试集上进行过训练,它将严重阻碍该领域的健康发展。为了自动化和高效地测试大型语言模型的能力,众多主流基准测试采用了多项选择格式。由于多项选择选项内容的交换不影响问题本身的含义,我们提出了一种基于此属性的简单有效的数据泄露检测方法。具体来说,我们通过打乱数据中选项的内容来生成相应的衍生数据集,然后根据模型在衍生数据集上的对数概率分布来检测数据泄露如果对数概率集合中存在最大值和异常值,则表明数据已泄露。我们的方法能够在不访问模型训练数据或权重的黑盒条件下工作,有效地识别模型预训练数据中的基准测试集数据泄露,包括正常情况和选项可能被有意或无意打乱的复杂情况。通过基于两个LLMs和基准测试设计的实验,我们展示了我们方法的有效性。此外,我们评估了31个主流开源LLMs在四个基准数据集上的数据泄露程度,并给出了每个基准测试中泄露LLMs的排名,我们发现Qwen系列LLMs在多个基准测试中的数据泄露程度最高。

1 引言

最近,大型语言模型(LLMs)在大多数自然语言处理基准测试中取得了显著进步。LLMs取得如此成功的一个关键原因是通过在从互联网上收集的大型语料库上进行大规模预训练。然而,由于LLMs开发者有意或无意的数据收集过程,预训练语料库可能包含来自各种评估基准的数据。来自此类基准的数据泄露导致无法准确评估LLMs的真实性能,模型可能只是简单地记住了难题的答案预训练语料库的组成通常被认为是现有大型模型的核心秘密,而像LLaMA、Qwen和Yi这样的开源模型并不开放它们的完整训练数据。目前,大多数LLMs不公开它们的完整预训练数据,这使得这些LLMs在某些基准测试上的性能是否真实可信变得不确定。人们越来越关注基准测试的适当使用和不同模型之间的公平比较。Zhou等人研究了基准泄露的影响,并发现当大型语言模型的预训练数据包含来自某个评审基准的数据时,它将在该评估基准上表现更好,但在其他无关任务上的性能会下降,最终导致对模型性能的评估不可靠。
在这里插入图片描述
图1:不同选项顺序的对数概率分布。例如:{顺序1:以下哪项不是结缔组织的例子 A:韧带 B:肌肉 C:血液 D:软骨,…,顺序24:以下哪项不是结缔组织的例子 A:软骨 B:血液 C:肌肉 D:韧带}。

许多公司和研究机构经常宣传他们的LLMs在各种基准测试上取得了多少分数,获得了第一名,然而那个分数的公平性并没有被认真对待。一些当前的主流基准测试(例如,MMLU、CMMLU、C-Eval、EEval、CMB)是以多项选择问题的形式。理论上,通过改变选项内容的顺序,模型预测该数据的对数概率可能会变高或变低,但波动不会很大。例如,如果模型没有在任一顺序的数据上进行过训练,那么“以下哪项不是结缔组织的例子 A:韧带 B:肌肉 C:血液 D:软骨”和“以下哪项不是结缔组织的例子 A:软骨 B:血液 C:肌肉 D:韧带”的对数概率不会有很大差异,因为选项内容之间缺乏顺序关系。如图1所示,包含四个选项的数据可以在打乱选项内容后组成24种不同的衍生数据。在不知道预训练数据中选项的顺序(打乱选项的顺序可能在基准构建过程或预训练数据构建过程中被假设)的情况下,如果24个对数概率既有高也有低而没有某种非常大的值,那么就没有数据泄露;如果有显著的异常值和对数概率的最大值,如图(a)所示,那么就存在数据泄露。有了这种检测方法,也可以检测到人为和故意的选项顺序打乱,如果不考虑选项打乱,只需要原始顺序的数据的对数概率就可以确定数据泄露的可能性最大。

在这项工作中,我们展示了如何在黑盒语言模型中为测试集污染提供可靠的证据。更具体地说,==我们提供了一种基于多项选择问题的简单而高效的新方法来检测基准泄露。==该方法识别语言模型的预训练数据中基准测试集的存在和数据泄露的程度,而无需访问模型的训练数据或权重。本文的贡献总结如下:
我们提出了一种基于多项选择问题特性的简单而有效的检测方法,通过打乱选项的顺序生成不同的衍生数据集,然后使用模型的对数概率分布来检测原始数据集是否泄露
算法能够在不访问模型训练数据或权重的黑盒条件下工作,有效地识别模型预训练数据中的基准测试集数据泄露,包括正常情况和选项可能被有意或无意打乱的复杂情况
• 我们基于两个LLMs设计实验验证了该方法的有效性,并评估了31个开源LLMs在四个主流基准集上的数据泄露风险,展示了LLMs之间的基准泄露排行榜,并特别发现Qwen系列LLMs在几个基准测试中显示出高风险。

2 相关工作

我们的工作集中在LLMs在基准测试集上的数据泄露问题上。因此,我们从主流大型语言模型基准测试和数据泄露检测的角度讨论与我们最相关的工作。
LLMs的主流基准测试
随着自然语言处理进入LLM时代,出现了各种各样的LLMs。为了准确评估模型的各种能力,也提出了各种综合或专门的基准测试。为了自动化和高效地测试大型语言模型的能力,许多主流基准测试使用多项选择格式。例如,MMLU是一个全面的英语基准测试,CMMLU和C-Eval是全面的中文基准测试,CMB是一个全面的中文医学测验评估基准测试。此外,多模态理解基准测试,如MMMU和CMMMU,也是以多项选择问题的形式存在。这项工作专注于以多项选择问题形式出现的基准测试集泄露问题。由于多项选择问题选项内容的交换不影响问题本身的含义,我们提出了一种基于此属性的简单有效的数据泄露检测方法。

2.1 数据泄露检测

当前预训练模型的大小及其预训练语料库越来越大,这不可避免地导致预训练语料库与各种基准测试集之间的数据泄露。一些先前的研究利用基准测试和预训练语料库之间的事后n-gram重叠分析来衡量数据泄露Deng等人利用基准测试的扰动和合成数据来检测基准泄露Wei等人比较了模型在训练集、验证集和测试集上的损失;如果模型在训练集上的损失显著低于验证集或测试集,这可能表明模型过度拟合了训练数据。如果测试集上的损失显著低于一个独立的参考集(由模型从未见过的数据组成),这可能表明测试数据在训练过程中被泄露了Mattern等人测试了目标序列和随机化序列之间的困惑度差异Oren等人交换了一些基准测试中问题的顺序,并用生成新数据的方式测试模型,作为检测数据泄露的一种方法Xu等人引入了使用两个简单且可扩展的指标,复杂性和n-gram准确性,来衡量基准模型的预测准确性,以识别潜在的数据泄露。我们的工作利用基准测试集中选项的可互换性来实现实例和细粒度的数据泄露检测。除了常见情况,我们甚至考虑在选项被有意或无意打乱的情况下的数据泄露识别。

3 方法论

我们的目标是识别语言模型θ的预训练过程中是否包含了来自基准测试集D的特定数据x,或者该基准测试集D泄露到模型θ的程度。在我们的设置中,检测是在黑盒条件下进行的,即预训练语料库和模型参数是未知的。我们考虑两种情况:(a)预训练数据选项的呈现顺序没有被打乱,以及(b)预训练数据选项的序列可能被打乱。

算法1:在场景(a)下的数据泄露检测
在这里插入图片描述
算法2:在场景(b)下的数据泄露检测

3.1 场景a:未打乱

如算法1所示,我们提出了一种在选项未被打乱情况下的数据泄露检测方法的伪代码。我们将待测试的数据定义为x = [q, o1, o2, …, on],其中q是多项选择格式的问题,oi是第i个选项,n是选项的总数。
如图2所示,对数据x进行选项打乱操作,得到一个衍生数据集X,表示为Shuffle(x) → X = {x1, x2, …, xn!}。这里,Shuffle表示打乱选项的函数,能够生成n!个不同的排列,其中n代表选项的数量。
当考虑到数据内的选项没有被人为重新排列的可能性时,x1被识别为原始数据序列。随后,每个xi ∈ X被输入到目标模型M中,以计算相应的对数概率,表示为:
在这里插入图片描述

这些概率随后被汇编成集合P = {logp1, logp2, …, logpn!},其中logp1对应于原始序列x1。
在这里插入图片描述

检测标准基于将logp1与P中的值进行比较。如果logp1是P中的最大值,这表明数据受到了模型M训练的影响,我们得出结论数据已经泄露。

3.2 场景b:已打乱

在场景b下的数据泄露检测方法的伪代码在算法2中展示。在这些条件下,测试集中的数据可以被打乱,任何类型的序列顺序都可能是模型拟合的顺序。
如上所述,我们首先打乱待测试的数据以获得n!个衍生数据:Shuffle(x) → X = {x1, x2, …, xn!}。然后,我们处理每个衍生数据点xi。具体来说,我们使用以下公式计算衍生数据的对数概率:
在这里插入图片描述

这里,PM代表模型M下的概率分布,seq表示序列,q是问题,Shufflei是第i个打乱操作,o1, o2, …, on是原始数据点。如图2所示,我们计算所有可能的打乱组合,获得一个包含n!个对数概率的集合P:
在这里插入图片描述

接下来,我们使用隔离森林算法为每个数据点计算异常分数souti:
在这里插入图片描述

随后,我们通过从集合P中获取最大值来识别最大对数概率logpm及其对应的异常分数soutm:
在这里插入图片描述

然后,我们评估异常分数soutm是否低于预定义的阈值δ。如果soutm < δ,数据被分类为异常值(“L”),算法返回此标签。否则,它被分类为非异常值(“NL”),算法相应地返回此标签:
在这里插入图片描述

在这里插入图片描述

图2:具有最大概率值的顺序,这是一个异常值,表明以该顺序的数据已经过预训练。
在这里插入图片描述

表1:在场景(a)下MMLU和CMMLU数据集上的实验结果。

4 实验

在本节中,我们将通过实验验证我们提出的方法在检测数据泄露方面的有效性。
在这里插入图片描述

表2:在场景(b)下MMLU和CMMLU数据集上的实验结果。

4.1 实验设置

我们从MMLU中随机选取了1,000条数据,其中500条用于LLaMA2-7b-base模型的持续预训练,然后使用这1,000条数据测试预训练模型,检测这1,000条数据中哪些已经被训练。同样,我们也使用CMMLU数据测试Qwen2-7b-base模型。我们的实验考虑了两种情况:(a)预训练数据选项的顺序没有被打乱,以及(b)预训练数据选项的顺序可能被打乱。

4.2 实验结果

**场景(a)**的实验结果如表1所示。在场景(a)下,只要一条数据的其他23种变体的对数概率都小于其原始顺序的对数概率,那么我们预测这条数据存在泄露。对于LLaMA2-7B,当数据被训练10次时,检测准确率和F1值超过了90%。我们发现即使数据只预训练了一次,我们的检测方法也能实现71%的准确率,这是一个及格的成绩。在早期阶段,随着训练次数的增加,我们的数据泄露检测准确率急剧上升,例如,训练2个周期时准确率达到79%。对于中文基准数据CMMLU上的Qwen2-7B模型,当周期为1时准确率仅为60.3%,然而当周期为5时准确率已经达到96.6%。表1中的实验结果表明,在场景(a)下,我们的数据泄露检测即使在数据重复非常少的情况下也能取得良好的性能。
**场景(b)**的实验结果如表2所示。在确定异常值时,我们选择了-0.2、0.17和-0.15三个阈值。由于场景b非常具有挑战性,场景b的检测准确率与场景a相比在实验结果中要低得多。当异常值阈值δ = 0.2时,准确率最高。当数据被训练10次时,LLaMA2-7B的准确率和F1值都超过了0.8,对于Qwen2-7B甚至达到了84.8%的准确率和0.857的F1分数。即使数据只预训练了一次,我们的检测方法也能实现约50%的准确率。从实验结果来看,当训练次数较少时,我们可以选择一个较小的异常值阈值。中英文数据集的测试结果相似。然而,总体而言,Qwen2-7B在CMMLU上的准确率高于LLaMA2-7B在MMLU上的准确率。我们发现,当训练迭代次数较少时,召回率非常低,随着训练迭代次数的增加,召回率显著提高。总体而言,我们的数据泄露检测方法在场景a中取得了卓越的准确率,在具有挑战性的场景b中也取得了可接受的结果。

4.3 LLMs基准泄露排行榜

之前的实验展示了我们的算法1和算法2的有效性,接下来我们将为各种基准泄露构建LLMs的排行榜。
我们在四个主流基准上进行全面的数据泄露检测实验:MMLU、CMMLU、C-Eval和CMB。如图3所示,我们测试了几乎所有目前流行的31个LLMs,并给出了场景a和b下预测为数据泄露的百分比。我们场景b的异常值阈值δ在三个基准测试集MMLU、CMMLU和C-Eval上设置为0.2;由于CMB基准中的数据有五个选项,其异常值阈值δ设置为0.25。图3中的基准泄露排行榜按场景b下的泄露程度排序。首先,我们发现在MMLU基准上模型之间的差距不大,数据泄露风险最高的前五个模型是Qwen2-72B、Qwen1.5-110B、Yi-34B、Yi1.5-9B和Yi1.5-6B。总体而言,LLMs在MMLU基准上的泄露是一个严重的问题,由于MMLU是英语领域最常用和广泛使用的基准之一,这个问题值得我们关注。

在CMMLU基准上,场景a下显示的泄露指标都很低,基本上只有0.04,这基本上符合正常条件下1/24 = 0.042的预期。然后我们发现,使用算法2检测后,场景b下检测到的数据泄露指标都显著更高,尤其是Qwen家族,排名最高。我们假设CMMLU基准在收集原始数据后可能对选项进行了打乱,或者LLM的开发者在预训练数据的打乱操作中进行了打乱。
在与CMMLU类似的中文综合基准C-Eval上,数据泄露风险最高的前五个模型也是Qwen1.5-110B、Qwen2-72B、Qwen1.5-32B、Qwen1.5-14B和Qwen2-7B。在中医基准CMB上,数据泄露风险最高的前五个LLMs仍然是Qwen2-72B、Qwen1.5-110B、Qwen1.5-32B、Qwen1.5-14B和Qwen2-7B。特别是,Qwen家族的LLMs在悬崖上领先,算法1的得分远高于其他模型。在数据泄露值方面,Qwen家族的LLMs几乎是其他LLMs的十倍。算法1检测到Qwen2-72B在CMB基准的测试数据中有42%被泄露。
在这里插入图片描述
图3:LLMs基准泄露排行榜。

总体而言,GLM4-9B在所有三个基准MMLU、CMMLU和C-Eval上的数据泄露风险最低,在CMB上的数据泄露风险也很低。Qwen家族的LLMs在所有四个基准上都有很高的泄露风险,我们发现模型越大,泄露指数越高,这可能是因为更大的模型有更多的预训练数据,并且更有能力更牢固地学习和记住数据。除了Qwen家族的LLMs,Yi家族、DeepSeek家族和Baichuan家族的LLMs也存在轻微的基准泄露风险。轻微的基准泄露很难避免,但我们希望研究人员在开发LLMs时应避免严重的基准泄露。

5 案例研究

如图4所示,我们从C-Eval中选取了三个示例,以便更直观地分析场景a下的数据泄露。例如,在第一个案例中,原始数据x1是“陆游的《杂赋》中说:‘今朝半醉草市西,指点青帘上酒楼。’诗中‘草市’的出现归因于A:城市布局的变化 B:娱乐场所的出现 C:商品经济的发展 D:市民阶层的崛起”,我们打乱选项内容得到24个衍生数据X = {x1, x2, …, xn!}。然后我们分别基于Qwen2-7B和LLaMA2-7B计算所有可能的打乱组合,获得两组(n!)对数概率PQwen = {logp1, logp2, …, logpn!}和PLLaMA = {logp1, logp2, …, logpn!}。基于这两组对数概率的点线图如图4所示。在Qwen2-7B模型上,原始顺序数据x1的对数概率最大,大于其他23个序列的对数概率,这表明该数据在Qwen2-7B上存在泄露风险。在右侧,LLaMA2-7B的是正常图,当选项内容被打乱时,一些对数概率变小,一些变大,原始顺序数据x1不是最大的,这表明在场景a下LLaMA没有数据泄露。
图5中展示了Qwen2-7B的一个特别例子,其中原始序列x1的对数概率不是最大的,算法1将其检测为在场景a下没有泄露。然而,我们使用算法2的检测结果发现,由于第19个衍生序列具有最高的对数概率并被判断为异常值,这块数据存在泄露风险。那块数据的题目和选项是“以下四个流星雨中,在2022年极大值当天受月光干扰最大的是A: 英仙座流星雨 B: 双子座流星雨 C: 射水鱼座流星雨 D: 象限仪座流星雨”,理论上对于被测试的LLM,打乱的选项内容不应该有显著的异常最大对数概率。这个案例说明我们的算法2在检测选项内容被打乱的情况下的数据泄露也是有效的。排行榜的主要目的是促进社区对LLMs的更公平评估,而不是暴露特定模型。
在这里插入图片描述

图4:在场景a下,C-Eval中Qwen2-7B和LLaMA2-7B的案例分析
在这里插入图片描述

图5:在场景b下,Qwen2-7B的案例分析

6 结论

这项工作强调了大型语言模型(LLMs)中基准数据泄露的严重性,并介绍了一种能够在包括多项选择选项顺序可能被打乱的各种情况下识别泄露的创新检测方法。我们基于两个LLMs设计实验验证了该方法的有效性,并评估了31个开源LLMs在四个主流基准集上的数据泄露风险,展示了LLMs之间的基准泄露排行榜,并特别发现Qwen家族的LLMs在几个基准测试中显示出高风险。这项工作强调了开发者和研究人员在确保LLMs评估的完整性和公平性方面保持警惕的必要性。我们呼吁社区继续努力解决这个问题,改进我们的检测技术,并维护人工智能领域基准评估的稳健性。这篇论文是建立更可靠和值得信赖的LLMs评估标准,并以信心和诚信推进人工智能领域的垫脚石。目前我们的方法仅限于检测多项选择格式的数据,在将来我们将尝试将我们的方法扩展到其他格式。此外,一些多模态基准也是多项选择问题的格式,在将来我们也将尝试检测大型多模态模型上的基准泄露。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值