【LLM大模型】生成扩散模型的攻击与防御：全面综述

最新推荐文章于 2025-03-02 16:13:55 发布

Llama-Turbo

最新推荐文章于 2025-03-02 16:13:55 发布

阅读量1k

点赞数 19

文章标签： prompt llama langchain 知识图谱人工智能大模型 LLM

本文链接：https://blog.csdn.net/pythonhy/article/details/141566772

版权

在这里插入图片描述

摘要——扩散模型（Diffusion Models, DMs）在图像生成、文本生成图像、文本引导图像生成等多种生成任务中已取得了最先进的性能。然而，DMs越强大，它们潜在的危害也越大。最近的研究表明，DMs容易受到各种攻击，包括对抗性攻击、成员推理、后门注入以及各种多模态威胁。由于众多预训练的DMs在互联网上广泛发布，这些攻击带来的潜在威胁对社会尤其具有危害性，使得与DM相关的安全问题成为一个值得深入研究的课题。因此，在本文中，我们对DMs的安全性进行了全面的综述，重点关注针对DMs的各种攻击和防御方法。首先，我们介绍了DMs的关键知识，包括五种主要类型的DMs：去噪扩散概率模型、去噪扩散隐式模型、噪声条件评分网络、随机微分方程以及多模态条件DMs**。我们进一步综述了最近一系列研究，探讨了利用DMs脆弱性的不同类型的攻击。随后，我们全面回顾了用于减轻每种威胁的潜在对策。最后，我们讨论了与DMs相关的安全性面临的开放性挑战，并展望了这一重要领域的研究方向。

关键词——扩散模型，多模态威胁，扩散模型安全性，后门攻击，成员推理，对抗性攻击。

在这里插入图片描述

近年来，扩散模型（Diffusion Models, DMs）[1]–[11]在广泛的生成任务中展示了卓越的能力，在深度生成模型的其他类别中如生成对抗网络（GANs）[12]、变分自编码器（VAEs）[13], [14]和基于能量的模型（EBMs）[15]中树立了新的性能标杆。

通常，DMs包括两个主要过程。前向（扩散）过程逐渐向原始数据中添加噪声，以逐步将数据分布扩散到标准高斯分布中。反向（生成）过程利用一个深度神经网络（通常是UNet [16]），来反向扩散，从高斯噪声中重构数据。凭借其令人印象深刻的潜力，DMs已被广泛应用于多个领域，包括计算机视觉 [17]–[28]、自然语言处理（NLP）[29]–[34]、音频处理 [35], [36]、3D生成 [37]–[42]、生物信息学 [43], [44]以及时间序列任务 [45]–[47]。

根据扩散和生成过程的不同，DMs可以分为不同的类别。第一类受到非平衡热力学理论[1]的启发，包括去噪扩散概率模型（DDPMs）[1]–[4]。DDPMs可以被视为马尔可夫层次VAE，其中扩散过程被建模为具有多个连续VAE的马尔可夫链。每个扩散步骤对应于VAE的编码过程，而每个去噪步骤可以视为相应VAE的解码操作。另一方面，去噪扩散隐式模型（DDIMs）是DDPMs的一个变体，采用非马尔可夫的方法，使模型能够在去噪过程中跳过步骤，从而在一定质量的权衡下提高生成速度。另一类DMs是噪声条件评分网络（NCSNs）[6], [7], [10]，其基于评分匹配[48]训练神经网络以学习真实数据分布的评分函数（即对数似然的梯度）。该评分函数指向训练数据所在的数据空间**。因此，通过跟随评分，训练良好的NCSNs可以根据真实数据分布生成新的样本。这个过程也可以看作是一种去噪过程[49]。最后一个主要类别是基于评分的随机微分方程（SDE），它将DDPMs和NCSNs纳入一个广义形式中。前向过程通过SDE将数据映射到噪声分布，而反向过程则使用逆时间SDE[50]从噪声中生成样本。此外，交叉注意力技术[51]可用于通过多模态条件（如文本和图像）约束去噪神经网络，迫使去噪过程生成符合给定条件的结果。这引发了广泛的多模态生成任务，如文本生成图像和文本引导的图像生成[9]。

尽管具有显著的潜力，DMs由于以下原因特别容易受到各种安全和隐私风险的影响：(i) 强大的DMs通常基于从多种开放资源收集的大规模数据进行训练，这些数据可能包含有毒数据或后门数据；(ii) 预训练的DMs在诸如HuggingFace1等开放平台上广泛发布，使得黑客更容易传播其操作过的模型。例如，通过操作训练数据和修改训练目标，攻击者可以将后门触发器嵌入DMs中以实施后门攻击[58]–[67]。因此，一旦在推理过程中向带有后门的DM输入触发器，它将始终生成攻击者指定的特定结果（例如，敏感图像或暴力文本）。即使在攻击者无法修改DMs参数的更安全设置下，他们仍可以构建DMs的输入以生成敏感内容，这被称为对抗性攻击[68]–[84]。在隐私方面，成员推理可以检测某个特定示例是否包含在DMs的训练数据集中。当训练数据高度敏感（例如，医学图像）时，这尤其危险。此外，DMs还用于各种安全应用中，如对抗性净化和稳健性认证，攻击这些应用中集成的DMs可能会使整个基于DM的安全系统失效[85], [86]。

由于DMs受到广泛关注，并且各种基于DM的应用已被公众广泛使用，因此不可否认，DMs的安全性是一个重要的研究方向。然而，现有的DMs综述大多集中于其在架构改进、性能和应用方面的发展，而完全忽略了DMs的安全性。例如，文献[53]的作者综述了DMs的一系列算法改进，包括采样加速、扩散过程设计、似然优化和分布桥接方面的改进。此外，他们还回顾了DMs的各种应用，如图像/视频生成、医学分析、文本生成和音频生成。同样，综述[52]也讨论了DMs的应用和发展，特别关注高效的采样方法和改进的似然。此外，作者还深入探讨了DMs与其他深度生成模型类别如VAEs、GANs和EBMs之间的联系。在以应用为中心的综述中，也有多篇综述研究了基于DM的应用，包括计算机视觉[54]、NLP[55]、医学成像[56]和时间序列应用[57]。由于现有综述未探讨DMs的安全性方面，本文旨在填补这一空白，通过提供对该重要课题中最先进研究的系统和全面概述。通过分类不同类型的针对DMs的攻击并提出应对这些攻击的对策，我们希望本综述能为研究人员提供有益的指南，以探索和开发最先进的DMs安全方法。本文的贡献可以总结如下：

我们为读者提供了不同类型DMs的必要背景知识，包括DDPM、DDIM、NCSN、SDE和多模态条件DMs。我们展示了不同类别的DMs在一致的扩散原理**下如何相互关联。
我们调查了针对DMs的广泛攻击，分为三个主要类别，包括后门攻击、成员推理攻击（MIAs）和对抗性攻击。每种攻击进一步根据相应的方法/应用分为子类别。
我们综述了基于该领域最先进研究的各种针对DMs攻击的对策。
我们讨论了该领域的多个开放性挑战，并展望了改进DMs及基于DM的应用安全性的一些有趣研究方向。

表I对我们工作与现有DMs相关综述进行了比较，强调了我们的贡献。本文余下部分的结构如下。第二节提供了不同类型DMs的初步知识以及DMs安全性的背景知识。第三节综述了针对DMs及基于DM的系统的最先进攻击方法。随后，第四节讨论了针对这些攻击的不同对策。第五节讨论了该领域的各种开放性挑战和未来研究方向，第六节对我们的综述进行了总结。

在这里插入图片描述

程序员为什么要学大模型？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望