论文分享-深度学习模型和数据集的知识产权保护概述

原文来自:https://arxiv.org/html/2411.05051v1 《Intellectual Property Protection for Deep Learning Model and Dataset Intelligence》

以下论文总结由豆包自动生成:

“Intellectual Property Protection for Deep Learning Model and Dataset Intelligence” 由 YONGQI JIANG、YANSONG GAO 等学者撰写,主要探讨了深度学习模型和数据集的知识产权保护(IPP)问题,涵盖了相关背景、保护方法、面临的攻击、挑战与展望等内容。

深度学习模型和数据集的知识产权保护概述

  • 背景
    • 深度学习模型的价值与挑战:深度学习在诸多领域取得显著进展,但构建生产级模型成本高昂,需精心设计网络结构、大规模高质量数据集、大量计算资源和高技术专长。这使得训练好的模型及其数据集成为有价值的知识产权,然而其巨大价值也引发了模型或数据集被盗用的风险,如攻击者通过查询输出低成本模仿原始模型,或利用辅助技术重建模型的私有训练数据,MLaaS 的出现虽方便了用户使用模型,但也为攻击者提供了新途径。
    • 深度学习知识产权保护的现状与不足:深 IP 保护仍处于起步阶段,现有方法多为反应式验证,如在模型中嵌入水印或指纹来验证所有权,但这些技术存在侵入性或局限性,且面临多种攻击类型。设计理想的 IPP 方案面临平衡多个竞争目标和确保在不同应用场景中正常运行的挑战。
  • 贡献
    • 对深度学习模型和数据集的现有深 IPP 方案进行全面综述,关注 AIGC 模型相关独特挑战与解决方案。
    • 创新性总结双层次性能评估指标,包括通用指标和特定类型的独特指标。
    • 系统回顾不同任务的深 IPP 和攻击方法,从反应式和主动式防御角度分类并分析其优缺点。
    • 深入分析分布式设置中深 IPP 面临的挑战,分类现有方法并比较优劣。
    • 指出深 IPP 的局限性,展望未来研究方向。
  • 与现有调查的比较:在多个关键方面推进了对 IPP 的研究,包括更全面的性能评估指标、更详细的分类方法、深入探讨分布式学习中的挑战、更广泛的威胁分类以及对未来方向的展望。

深度学习模型的知识产权保护方法

  1. 反应式模型知识产权保护
    • 模型水印
      • 基于模型组件的水印:在白盒验证允许时,可利用模型权重、动态参数或模型结构嵌入水印。如通过正则化目标损失函数或重新排序权重重要性将水印嵌入静态权重空间;利用依赖数据和模型的动态组件(如激活映射、梯度、RNN 隐藏状态)作为水印载体;或将模型结构本身作为水印或水印载体。
      • 基于查询的水印:在仅允许查询的黑盒验证时,通过生成或选择带触发的样本对来构建数据集,然后微调或联合训练模型以嵌入水印,最后查询可疑模型进行验证。根据创建触发样本的方式,可分为使用分布外样本、决策边界附近样本、带预设触发模式的自然样本和同义词替换等方法。
      • 基于生成内容的水印:在最严格的黑盒验证下,可将水印嵌入模型生成的内容中,适用于生成模型。包括水印自动编码器、水印 GANs、水印扩散模型和水印大语言模型等,各有其特点和局限性。
    • 模型指纹
      • 基于静态属性的指纹:提取模型的静态属性(如模型参数、训练路径)作为指纹,通过比较哈希码或验证训练路径来确定模型所有权,但存在易受攻击或要求高访问权限等问题。
      • 基于动态行为的指纹:期望存在可触发模型特定知识的指纹,包括基于误分类的(利用误分类样本或通过优化生成的样本作为测试输入)、基于低置信度的(通过寻找决策边界附近的数据点来表示模型)和基于预设响应的(针对预训练大语言模型,通过预设响应或指令微调来指纹目标模型)。
  2. 主动式模型知识产权保护
    • 主动授权控制
      • 无跟踪功能的主动授权控制:通过多种技术区分授权和未授权用户,提供不同功能和性能,包括输入 “加密”(如设计可见或不可见密钥、样本特定转换、添加对抗扰动等,但可能影响数据可用性和模型收敛性)、模型 “加密”(针对卷积核、BatchNorm 层、神经元或模型权重进行操作,可逆且对分类精度影响小)和 TEE 屏蔽的深度学习模型保护(将模型分区,部分在 GPU 执行,隐私敏感部分在 TEE 中,可基于模型结构或计算内容进行分区)。
      • 有跟踪功能的主动授权控制:通过嵌入用户身份密钥来跟踪叛徒,分为基于模型权重(为每个用户生成唯一二进制身份密钥并嵌入权重空间,但易被微调去除)、基于后门样本(用户身份键对应后门触发模式,但所有权验证易出现高误报率)和基于对抗样本(利用模型对对抗样本的不同响应行为跟踪用户身份)。
    • 域授权控制:旨在限制授权用户将模型应用于未经授权的领域,分为目标指定模型 IPP(访问原始训练数据和目标域数据,通过构建估计器或引入密钥等方法降低目标域模型性能)、源仅模型 IPP(仅访问原始训练数据,通过构建模拟目标域来训练模型,使模型在未知目标域性能下降)和数据自由模型 IPP(无法访问原始和目标域数据,通过假设和优化掩码矩阵来保护 IP,但性能会略有下降)。

数据集的知识产权保护方法

  1. 数据集水印
    • 后门水印:利用后门攻击嵌入外部模式进行数据集水印,如通过毒化后门攻击、视觉提示学习中的水印嵌入、无目标后门水印、干净标签后门水印和在数据集蒸馏过程中保护 IP 等方法,但存在引入新安全风险、水印易复制和分发等问题。
    • 域水印:基于深度学习模型的泛化特性,找到原始数据集的难泛化域作为触发,使水印模型能正确分类这些触发,是一种相对无害和隐蔽的 IPP 方法。
    • 函数水印:受 NLP 模型中的攻击启发,通过在文本中添加特定触发器或编码水印文本为 ASCII 码并嵌入自定义函数系数来保护分类语言数据集或其他数据集,在水印提取阶段通过查询可疑模型来获取水印。
  2. 数据集指纹
    • 基于预测边缘的指纹:利用任何盗版模型的预测边缘分布与受害模型相似的特性,通过比较模型在测试样本上的预测边界相似性来确定所有权,但存在高误报率问题,且不适用于自监督模型。为解决这些问题,可通过训练密度估计模型或利用几何一致性来寻找支持决策边界的样本作为知识表示。
    • 基于预测行为的指纹:观察到部分数据对不同 ML 模型的预测行为有相似影响,通过比较可疑模型和目标数据训练模型的预测行为来验证数据所有权,如通过导入成员推理技术创建指纹数据或利用几何一致性找到代表知识的样本,该方法无需修改目标数据或训练过程,是模型无关框架。
  3. 数据集授权控制:作为主动式 IPP 方法,通过添加不可察觉或可逆扰动来阻止非法使用,如在特征空间中生成对抗样本并隐藏原始图像,或在艺术作品中添加扰动以保护艺术家的版权免受风格模仿的侵犯。

分布式知识产权保护

  • 概述:随着数据处理需求增长,分布式机器学习(DML)兴起,包括联邦学习(FL)、分割学习等。DML 在保护隐私的同时带来了所有权保护问题,如服务器与客户端数据访问权限差异、IPP 方法在 DML 中的适用性、恶意客户端的合谋攻击、水印冲突、与隐私保护方法的兼容性以及通信和计算开销等挑战。
  • 联邦模型 IPP
    • 服务器端联邦模型 IPP:服务器作为 IP 所有者,负责为联邦全局模型创建指纹或水印,如 WAFFLE 通过在每次聚合轮次中重新训练全局模型嵌入后门水印,但可能影响模型性能;FedTracker 采用双层保护策略,嵌入 WAFFLE 水印并生成指纹来推断叛徒。
    • 客户端端联邦模型 IPP:多个客户端为本地模型添加所有权证书,将水印或指纹注入全局模型,如 FedIPR 使所有客户端能嵌入独特水印,FedCIP 提出周期水印概念来跟踪叛徒,FedCIP 通过设计可解码唯一水印解决水印冲突问题。
    • 协作联邦模型 IPP:服务器和客户端合作对全局模型进行水印标记,如 FedRight 引入模型指纹,Merkle - Sign 基于 Merkle 树的公共认证协议记录客户端身份信息来跟踪叛徒,FedFP 采用抗合谋编码理论设计独特水印信息来检测合谋者。

针对深度学习知识产权保护的攻击

  1. 攻击概述:深度学习模型和数据的 IPP 在数字时代面临新挑战,防御机制可能引入新攻击向量,使受保护模型更易受侵权。攻击可分为 IP 检测和规避以及 IP 去除两个级别。
  2. IP 检测与规避
    • 威胁模型:攻击者旨在检测嵌入的水印或指纹,了解其操作模型以逃避所有权验证,假设攻击者可访问同域训练的多个模型及局部阴影数据集。
    • 攻击方法
      • 模型属性检测:通过分析模型权重分布、中间输出和神经网络状态来检测水印,但需要高权限访问模型且对样本分布要求高。
      • 模型行为检测:通过反转数据触发器或注入扰动来检测和去除水印,如输入预处理攻击、利用 GAN 生成模拟扰动、特征挤压框架检测对抗样本,以及针对模式后门水印的查询修改技术。
      • IP 模糊性:攻击者通过伪造额外 IP 标识符来降低验证结果可信度,如利用传统水印方法的漏洞设计护照层,但可能导致性能下降,或通过在护照参数前插入附件块成功伪造多个有效护照。
      • 合谋攻击:授权用户可能合谋开发等效功能模型或与未授权用户勾结,如 FP 合谋攻击中合谋者通过平均权重响应模型所有者查询。
  3. IP 去除
    • 威胁模型:恶意攻击者旨在去除内置 IP 标识符创建盗版模型,假设攻击者可通过白盒或黑盒权限访问模型。
    • 攻击方法
      • 模型修改:包括使用微调或训练正则化去除水印,如利用额外未标记数据微调、采用高学习率微调但会降低测试准确性,或结合模式嵌入和空间变换算法盲目破坏水印记忆,以及通过频率分析识别水印层并进行修改。
      • 模型提取:从模型预测或属性中学习模型副本,如通过查询受限的数据无模型提取攻击、针对图像处理网络的水印提取和重训练方法、针对深度强化学习模型的提取攻击,以及针对图神经网络的模型窃取攻击和结构推断攻击。

深度学习知识产权保护面临的挑战与展望

  1. 可用统一验证指标:现有验证指标多针对反应式方案,缺乏对主动式 IPP 的评估,且重性能轻抗攻击指标,需设计全面统一的验证指标。
  2. 模型和数据集智能 IPP 扩展:当前应将深 IPP 从模型层扩展到数据集层,包括训练数据集和模型输出数据,以保护其知识产权免受未经授权的访问、复制或使用。
  3. 超越分类任务的 IPP 研究:当前 IPP 主要关注分类任务,未来应拓展到更复杂和流行的任务,如对象检测、图像生成与分割、语音识别和文本生成等,这些任务虽推动了人工智能发展,但也带来了新的 IPP 实施挑战。
  4. 理论分析与证明:当前深 IPP 方法缺乏严谨理论分析,其防御有效性依赖于威胁模型假设和模拟结果,未来应研究如指纹识别方法中指纹触发距离的有效性、模型可嵌入水印位数、水印嵌入冗余空间方法的鲁棒性以及分布式学习中水印或指纹冲突等问题,为方法提供理论支持。
  5. 有效性和效率提升:无论是集中式还是分布式场景,IP 标识符构建计算成本高,且分布式 IPP 研究有限,现有 FL IPP 方法难平衡效率、完整性和鲁棒性,未来需开发能在不同分布式学习中平衡有效性、效率和保真度的 IPP 方法。
  6. 多模态大语言模型智能 IPP 发展:多模态大语言模型(MM - LLMs)因训练数据和资源需求大更易受攻击,且将单模态 IPP 方法直接应用于 MM - LLMs 可能降低模型功能,其复杂性和设计目标冲突也使 IPP 难以权衡,因此开发适用于 MM - LLMs 的 IPP 算法是未来重要方向。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笑呵呵的大文子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值