Stetman 读paper小记：How to Backdoor Diffusion Models?-CSDN博客

本文链接：https://blog.csdn.net/Stetman/article/details/131434726

文章探讨了BadDiffusion攻击框架，该框架揭示了扩散模型在后门攻击下的脆弱性，能够植入高效且目标特定的后门。攻击者通过修改预训练模型的扩散过程并用含后门触发器的数据进行训练，实现模型的恶意行为。防御策略包括检测和减轻后门影响，但挑战在于生成模型的复杂性和触发器的隐蔽性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于课题组研究需要，了解了一下当前比较火爆的扩散模型（Diffusion Model），其中读到的这篇论文与正在学习的后门领域比较相关，特此记录一下当时思考的一些问题。

这篇文章的主要内容是关于扩散模型在后门攻击下的鲁棒性研究。文章介绍了一种新的攻击框架称为BadDiffusion，并通过实验证明BadDiffusion可以持续导致具有高效用性和目标特异性的受损扩散模型，突出了扩散模型的潜在风险和可能的误用。文章还讨论了一些可能的对抗措施，以减轻扩散模型遭受背门攻击的风险。

扩散模型（Diffusion）：http://t.csdn.cn/VZkZG

文章以经典扩散模型DDMP为例（DDMP：Stetman读paper小记：Denoising Diffusion Probabilistic Models_Stetman的博客-CSDN博客）

模型的目的与实施？

BadDiffusion 框架的目的是在模型训练期间设计受损的扩散过程以植入后门。后门扩散模型经过训练，可以在触发时表现出所需的行为，同时保持正常输入的常规扩散模型的外观

该攻击方法通过在扩散过程中引入恶意的后门触发器，来实现对扩散模型的攻击。具体包括以下步骤：

1. 攻击者选择一个预训练的扩散模型，并将其用作攻击目标。

2. 攻击者通过修改扩散过程，将恶意的后门触发器嵌入到模型中。

3. 攻击者使用带有后门触发器的数据对模型进行训练，以使其在接收到特定的触发信号时，会生成特定的输出结果。

4. 攻击者对训练后的模型进行评估，以确保其能够在接收到触发信号时生成预期的输出结果。

针对生成模型的后门攻击？
针对生成模型的后门攻击是指攻击者操纵生成模型的训练过程或模型架构（例如生成对抗网络（GAN）或扩散模型）以引入隐藏的触发器或后门的特定类型的攻击。

面对生成模型时，后门攻击旨在破坏模型的生成过程。攻击者可以修改训练数据、训练过程或模型架构以嵌入触发器，该触发器在激活时会导致生成特定的目标输出或行为。

对生成模型的成功后门攻击的后果可能是严重的。它可能会导致生成受操纵或恶意的输出，这些输出可用于各种恶意目的，例如生成误导性信息、损害隐私或促进未经授权的访问。

针对生成模型的后门攻击的防御重点是检测和减轻后门的存在。这可能涉及触发检测、反向触发恢复或模型清理等技术来消除后门效应。然而，由于生成过程的性质和触发器的潜在复杂性，对生成模型的后门攻击可能很难检测。

BadDiffusion 攻击框架如何在模型训练期间破坏扩散过程？

BadDiffusion 攻击框架工程师在模型训练期间通过向扩散过程注入后门触发信号来破坏扩散过程。具体来说，在训练期间，攻击者通过向输入数据添加触发信号来修改一小部分训练数据。触发信号旨在在呈现特定输入模式时激活模型的后门行为。然后根据这些修改后的数据对模型进行训练，从而产生妥协的扩散过程，当出现触发信号时，该过程可以生成所需的后门行为。在推理阶段，后门扩散模型的行为就像一个用于常规数据输入的未经篡改的生成器，同时在接收到植入的触发信号后错误地生成攻击者设计的一些目标结果。