中科院提出大模型“基准泄露”排行榜,Qwen模型位居榜首

近期,大规模语言模型在多个自然语言处理的基准测试中取得了显著的进展。这些模型之所以能够取得成功,部分原因在于它们通过对互联网上收集的庞大语料库进行广泛的预训练。然而,预训练语料库可能因为开发者有意或无意的数据收集行为,包含了各种评估基准的数据。这种数据泄露可能导致无法准确评估模型的真实性能,模型可能仅仅是记住了难题的答案。研究发现,当一个大型语言模型的预训练数据中包含了某个数据集的内容时,它在该数据集上的表现会有所提升,但在其他不相关任务上的性能却可能下降,这最终可能导致对模型性能的评估变得不准确。

中国科学院深圳先进技术研究院和中国科学技术大学的研究人员提出了一种简单而有效的数据泄露检测方法,该方法基于选择题选项内容可交换的特点,通过打乱原始数据中选项的顺序生成一组衍生数据,然后利用大模型的计算衍生数据集的对数概率分布来检测原始数据集是否泄露。该方法能够在不访问模型的训练数据或权重的情况下,识别语言模型预训练数据中基准测试集的存在以及数据泄露的程度。这种方法有助于确保评估模型性能时的准确性和可靠性。

Paper: https://arxiv.org/abs/2409.01790
Code: https://github.com/nishiwen1214/Benchmark-leakage-detection

一些当前主流的基准测试(例如,MMLU、CMMLU、C-Eval、E-Eval、CMB)都是以选择题的形式构建的。理论上,通过改变原始数据选项内容的顺序,模型预测该数据的对数概率可能会变高或变低,但波动不会很大。例如,如果模型没有在该条数据的任何顺序上进行过训练,那么“以下所有项都是结缔组织的示例,除了A:韧带B:肌肉C:血液D:软骨”和“以下所有项都是结缔组织的示例,除了A:软骨B:血液C:肌肉D:韧带”的对数概率不会有太大差异,因为选项内容之间不存在顺序依赖关系。

如图所示,包含四个选项的数据可以在打乱选项内容后组成24种不同的衍生数据。如果不知道预训练数据中选项的顺序(打乱的选项顺序可能在基准构建过程中或预训练数据构建过程中被假设,如果24个对数概率高低不一,而没有明显的离群最大值,那么就不存在数据泄露如果存在一个显著的对数概率最大的异常值,那么就说明存在数据泄露。通过这种检测方法,也可以检测到人为和故意打乱选项顺序的情况,如果不考虑选项打乱,只需要原始顺序数据的对数概率是24个中的最大值就可以确定(理论上的概率是1/24)。因此,该论文考虑了两种情况:

  1. 预训练数据选项的顺序没有被打乱

  2. 预训练数据选项的顺序被打乱过。

论文使用了LLaMA2-7b-base模型作为预训练模型,从MMLU中随机抽取了1000条数据,其中500条用于持续预训练,随后利用这1000条数据进行测试,以检测哪些数据在训练过程中被使用过。同样,论文也采用了CMMLU数据来对Qwen2-7b-base模型进行测试。论文的实验考虑了两种情况:

  1. 预训练数据中的选项顺序保持不变

  2. 预训练数据中的选项顺序可能被扰乱

场景(a)的实验结果显示在表1中。在场景(a)中,如果一段数据的其他23个变体的对数概率都低于原始数据的对数概率,就预测该数据发生了泄露。经过10次训练,LLaMA2-7B模型在检测准确率和F1分数上都超过了90%。即便只是进行一次预训练,我们的检测方法也能实现71%的准确率。

场景(b)的实验结果展示在表2中。研究人员选取了-0.2、0.17和-0.15作为检测离群点的阈值。场景(b)极具挑战性,但即便数据只经过一次预训练,检测方法仍能达到大约50%的准确率。总的来说,该数据泄露检测方法在场景(a)中表现出色,在较为困难的场景(b)中表现尚可。

论文对四个主流基准(MMLU、CMMLU、C-Eval、CMB)进行了全面的数据泄漏检测实验。在MMLU基准上,模型之间没有太大差距,数据泄露风险排名前五的模型是Qwen2-72B、Qwen1.5-110B、Yi-34B、Yi1.5-9B和Yi1.5-6B。总体而言,MMLU基准上的LLMs泄露是一个严重的问题,由于MMLU是英语领域中最常用和广泛使用的基准之一,这个问题值得我们关注。在CMMLU基准上,场景a显示的泄露指标都非常低,基本上只有0.04,这基本上符合正常情况1/24=0.042的预期。然后我们发现,在使用算法2检测后,场景b下检测到的数据泄露指标都显著更高,尤其是Qwen家族,排名最高。我们假设CMMLU基准在收集原始数据后可能对选项进行了洗牌,或者LLM的开发人员在预训练数据的洗牌操作中进行了洗牌。在与CMMLU类似的中文综合基准C-Eval上,建模的数据泄露风险排名前五的也都是Qwen1.5-110B、Qwen2-72B、Qwen1.5-32B、Qwen1.5-14B和Qwen2-7B。在中药基准CMB上,数据泄露风险排名前五的LLMs仍然是Qwen2-72B、Qwen1.5-110B、Qwen1.5-32B、Qwen1.5-14B和Qwen2-7B。特别是,Qwen家族的LLMs在数据泄露值上远远领先于其他模型,算法1的得分远高于其他模型。在数据泄露值方面,Qwen家族的LLMs几乎是其他LLMs的十倍。算法1检测到Qwen2-72B在CMB基准的测试数据中有42%被泄露。总体而言,GLM4-9B在所有三个基准MMLU、CMMLU和C-Eval上的数据泄露风险最低,在CMB上的数据泄露风险较低。Qwen家族的LLMs在所有四个基准上都有非常高的泄露风险,我们发现模型越大,泄露指数越高,这可能是因为较大的模型拥有更多的预训练数据,并且更能够牢固地学习和记忆数据。除了Qwen家族的LLMs,Yi家族、DeepSeek家族和Baichuan家族的LLMs也存在轻微的基准泄露风险。轻微的基准泄露很难避免,但我们希望研究人员在开发LLMs时避免严重的基准泄露。

在案例研究中,论文从C-Eval中挑选了三个例子来直观展示在场景a下的数据泄漏情况。例如,第一个例子是关于陆游的《杂赋》中的“草市”,研究人员通过混洗选项内容得到了24个不同的数据排列。研究人员使用Qwen2-7B和LLaMA2-7B模型计算了这些排列的对数概率,并发现在Qwen2-7B模型中,原始数据的对数概率显著高于其他排列,暗示了数据泄漏的风险。而在LLaMA2-7B模型中,原始数据的对数概率并不突出,表明没有数据泄漏。特别地,对于Qwen2-7B模型,尽管原始序列的对数概率不是最高,但第19个衍生序列的对数概率最高,被算法2检测为异常值,表明存在泄漏风险。这个例子说明了即使在选项内容被混洗的情况下,论文的算法2也能有效地检测出数据泄漏。

结论

这项工作强调了大型语言模型(LLMs)中基准数据泄漏的严重性,并引入了一种创新的检测方法,能够识别各种情况下的泄漏,包括多项选择选项的顺序可能已被混洗的情况。论文基于两个LLMs设计实验验证了该方法的有效性,并评估了31个开源LLMs在四个主流基准集上的数据泄漏风险,展示了LLMs之间的基准泄漏排行榜,并特别发现Qwen家族的LLMs在几个基准测试中显示出高风险。这项工作强调了开发者和研究人员在确保LLMs评估的完整性和公平性方面保持警惕的必要性。论文呼吁社区继续努力解决这一问题,改进其的检测技术,并维护人工智能领域基准评估的稳健性。这篇论文是建立更可靠、更值得信赖的LLMs评估标准,以及以信心和诚信推进人工智能领域的垫脚石。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 13
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值