guided diffu-sion model for purification&&DiffPure:基于diffusion净化对抗样本的防御方法

参考笔记:[论文总结] DiffPure - 知乎 (zhihu.com)  

论文:Diffusion Models for Adversarial Purification (英伟达版本)

论文:Guided Diffusion Model for Adversarial Purification(上交大版本)

代码:https://github.com/JinyiW/GuidedDiffusionPur (上交大版本)

1. 对抗净化以及DiffPure&GDMP的贡献

本笔记主要针对上交大版本的diffusion净化版本,因为它更好读懂

1.1 对抗净化

对抗训练的缺点:大多数对抗训练方法只能防御他们所训练的特定攻击。对于未知的攻击它们的性能显着下降,对抗训练完之后模型本身的预测性能也会下降。此外,对抗训练的计算复杂度通常高于标准训练

除了常见的对抗训练方法,还有一种常用的防御方法称为对抗性净化,集在分类前依靠生成模型来净化对抗扰动使得对抗样本越发接近原图像,与对抗性训练方法相比,对抗性净化可以在不重新训练分类器的情况下以即插即用的方式防御看不见的威胁。这是因为生成净化模型是独立于威胁模型和分类器进行训练的,也就是说对抗训练只能够防御他们所训练的特定攻击,而对净化净化的泛化能力更强,能更好的针对未知攻击,且不影响模型本身的性能

作者提出一种对抗净化方法diffusion-based purification,基于diffusion扩散模型的净化利用扩散模型来净化输入图像并实现最先进的鲁棒性。根据防御使用的扩散模型的类型,基于扩散的净化可以分为基于分数的净化(使用基于分数的扩散模型)和基于DDPM的净化(去噪扩散概率模型(DDPM))。最近的研究表明,由于梯度消失/爆炸、高内存成本和大随机性的挑战,即使是最先进的攻击也无法打破这些防御。 

1.2 两文的贡献

(1)英伟达提出DiffPure,上交大提出GDMP。均是一种基于对抗性净化方法,它使用预训练扩散模型的正向和反向过程来净化对抗性图像

(2)英伟达用理论分析使用的最佳时间步T(没看懂),上交大使用Guided Diffusion引入条件去噪,利用SSIM或MSE提高去噪图像和对抗对抗的相似度,从而间接提高去噪图像和原干净图像的相似度,从而缓解高时间步T对去原始分布的破坏

(3)英伟达使用伴随方法来有效地计算diffusion模型反向扩散(采样)过程的全梯度,以对抗强自适应攻击,上交大利用Improved Denoising Diffusion Probabilistic Models 论文上的加速方法减少时间步,加速了去噪的时间花费

2. 前置知识

DDPM,Guided Diffusion

3. GDMP原理

最近,扩散模型已成为强大的生成模型。 这些模型展示了强大的样本质量,在图像生成方面击败了 GAN。 它们还表现出强大的模式覆盖率,这由高测试可能性表明。 扩散模型由两个过程组成:

  1. 前向扩散过程,通过逐渐向输入添加噪声,将数据转换为噪声;
  2. 反向生成过程,从噪声开始,通过一次一步去噪来生成数据。

直观地讲,在生成过程中,扩散模型净化了噪声样本,起到了与净化模型类似的作用。它们良好的生成质量和多样性确保纯化的图像紧密遵循干净数据的原始分布。 此外,扩散模型中的随机性可以形成强大的随机防御。这些特性使扩散模型成为生成对抗净化的理想候选者。基于扩散的净化防御利用扩散模型首先用高斯噪声扩散对抗样本,然后进行采样以消除噪声。通过这种方式,由于扩散模型的训练分布是干净的,因此希望也可以消除精心设计的对抗扰动

因此,作者提出了一种新的对抗净化方法,称为GDMP,给定一个预先训练的扩散模型,我们的方法包括两个步骤:

  1. 我们首先通过较小扩散时间步长的前向过程向对抗样本添加噪声;
  2. 然后求解逆随机微分方程(SDE)以从扩散的对抗样本中恢复干净的图像 。

该方法中的一个重要设计参数是扩散时间步长的选择,因为它代表了前向过程中添加的噪声量。 理论分析表明,噪声需要足够高以消除对抗扰动,但又不能太大以破坏纯化图像的标签语义。 此外,强自适应攻击需要通过该方法中的 SDE 求解器进行梯度反向传播,如果简单地实现,就会遇到内存问题。 因此,作者建议使用伴随方法以恒定的内存成本有效计算逆向 SDE 的完整梯度。

3.1 纯DDMP净化过程

3.2 时间步T的选择

英伟达和上交大的论文均指出,时间步T的选择十分关键,时间步太小可能无法有效的净化噪声,时间步太长容

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值