专治大模型“套壳”!上海AI实验室等给LLM做“指纹识别”,模型剪枝、合并等也无所遁形

大模型“套壳”事件防不胜防,有没有方法可以检测套壳行为呢?

来自上海AI实验室、中科院、人大和上交大的学者们,提出了一种大模型的“指纹识别”方法——REEF(Representation Encoding Fingerprints)。

在不改变模型性能的前提下,利用REEF就可以精准识别未经授权的后续开发行为。

REEF依赖模型在微调后表征“不变性”的特点,基于表征编码实现对大模型的“指纹鉴别”。

并且即使经过剪枝、合并、参数排列和缩放变换等一系列操作,同样能让“套壳”行为无所遁形

可以说,这项研究给大模型开发团队提供了一种应对大模型侵权问题的新手段。

大模型表征具有“微调不变性”

注:
在下文中,“源模型”是指从头训练的LLM(即论文中victim model),如Llama、Qwen等;
“被测模型”(即论文中的suspect model),分为两类——基于源模型开发/训练的“衍生模型”和其他“无关模型”。
REEF的目标是,给定一个被测模型,检测其是否是来自“源模型”的“衍生模型”,即所谓的“套壳”模型。

鉴于训练大语言模型的投入巨大,模型所有者和第三方迫切需要一种准确高效的方法,以判断被测模型是否来自某一源模型(例如Code-llama从Llama-2训练而来)。

然而,现有的水印方法不仅增加了额外的训练成本,还可能削弱模型的通用性能,且水印容易被删除。更重要的是,这些方法无法应用于已公开发布的模型。

此外,基于权重的指纹识别缺乏鲁棒性,恶意开发者可以通过不同权重修改手段轻松绕过检测。

由于不同模型在训练数据和模型架构上的差异,不同的LLM的特征表示有所不同

如下图(a)所示,Llama的表征与Baichuan和Qwen明显不同,但与其微调模型(如Llama-chat和Chinese-llama)更为接近。

这一现象揭示了表征作为LLM“指纹”的潜力。

基于以下两点观察,作者在源模型的表征上训练了一个二元分类器,并将其应用于各种被测模型的表征,包括衍生模型和无关模型:

  • 微调后的衍生模型的表征与源模型的表征相似,而无关模型的表征显示出不同的分布;

  • 一些高级语义概念在 LLM 的表征空间中“线性”编码,从而可以轻松分类,如安全或不安全、诚实或不诚实等。

具体而言,作者使用TruthfulQA数据集,分别选择 Llama-2-7B和 Llama-2-13B作为源模型,并在其数据集表征上训练了多种深度神经网络DNN分类器,例如线性分类器、多层感知器MLP、卷积神经网络CNN 和图卷积网络GCN。

然后,作者将训练好的DNN分类器应用于被测模型的表征。

实验结果表明:在源模型的表征上训练的分类器能够有效迁移到其衍生模型的表征上,但在无关模型的表征上失效。

这意味着,表征可以作为指纹来保护源模型的知识产权

然而,使用DNN分类器识别源模型面临以下挑战:

  • DNN具有固定的输入维度,如果对源模型进行改变表征维度的剪枝操作,分类器不再适用;

  • DNN对表征的排列缺乏鲁棒性,恶意开发人员可能通过变换矩阵实现参数重排来规避检测。

REEF:一种鲁棒的LLM指纹识别方法

为了解决上述挑战,作者提出一种新的基于表征的指纹识别方法——REEF,具备良好的鲁棒性。

REEF利用中心核对齐CKA相似性,重点关注LLM的内部特征表征

在评估被测模型是否来自源模型时,REEF计算两个模型对相同样本的表征之间的CKA相似性。

该方法简单高效,能够确保捕获到任何显著的相似性,从而揭示模型之间的潜在衍生关系。

CKA是基于希尔伯特-施密特独立性准则(HilbertSchmidt Independence Criterion,HSIC)的相似性指数,用于测量两组随机变量之间的独立性。

X和Y之间的CKA相似度可以按如下方式计算:

通过下面的定理1,论文在理论上证明了CKA相似度在任何列排列和缩放变换下具有不变性。同时,CKA能够在不同维度的表征之间建立对应关系。

因此,REEF 对源模型的各种后续开发(包括模型剪枝和表征排列)表现出强鲁棒性,从而确保基于表征的指纹能够准确识别源模型。

无惧后续开发,稳稳识别“套壳”模型

作者将REEF应用于通过微调、剪枝、合并、排列和缩放变换等方式从源模型衍生出的被测模型。

这些方式可能显著改变模型的结构或参数,使得现有方法难以有效识别源模型。

然而,REEF在这些情况下依然能够准确识别出源模型,进一步验证了其鲁棒性。

具体来说,从上面的表中,可以得出以下结论:

  • REEF对微调具有很强的鲁棒性,即使在使用多达700B tokens的微调情况下(Llama-7B),REEF仍能达到0.9962的高相似度;

  • REEF对各种剪枝策略都表现出鲁棒性,无论结构化剪枝还是非结构化剪枝,REEF都能够有效识别源模型,即使剪枝比率高达90%,REEF依然能够成功识别;

  • 无论是基于权重或基于分布的模型合并方法,REEF均能在识别合并模型的来源方面始终保持高准确性;

  • REEF 对任何列排列和缩放变换具有不变性,能够抵御该类规避技术。

鲁棒且高效:跨数据集和样本量

作者进一步分析了REEF在不同数据集和不同样本数量下的表现。

一方面,除了前文提到的TruthfulQA数据集,作者还选择了SST2、ConfAIde、PKUSafeRLHF和ToxiGen等数据集进行实验;

另一方面,对于每个数据集,别在样本数量从10到1000、每隔10的情况下进行采样,以测试REEF的表现。

结果,REEF在不同数据集上均表现出有效性,对数据集不具强依赖性(图示在不同数据集上,源模型与衍生模型之间的相似性显著高于其与无关模型之间的相似性,表明REEF能够跨数据集稳定识别源模型);

同时,REEF依赖少量样本即可稳健识别模型指纹,具有高效性(图示REEF在 200-300 个样本后结果趋于稳定,表明其可以在较少的样本数量下实现可靠的指纹识别)。

REEF它不仅保障了模型性能,还平衡了开放性与知识产权之间的关系,能够确保衍生模型的责任可追溯。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值