利用对抗性扰动和生成模型来执行高效但标签一致的后门攻击。
方法基于注入看似合理但难以分类的输入,导致模型依赖于(更容易学习)后门触发器。
贡献:
对于后门攻击成功,中毒的输入需要很难分类,而不依赖于后门触发器。如果中毒输入可以根据其显着特征正确分类,则模型可能会忽略后门触发器——因此攻击将不成功。
开发了一种合成有效、标签一致、中毒输入的方法。我们的方法包括扰动原始输入以使它们更难分类,同时保持扰动足够小以确保原始标签保持一致。
• 基于 GAN 的插值:我们在生成对抗网络 (GAN) 的潜在空间中将中毒输入插值到不正确的类中
• 对抗性扰动:我们在中毒输入上最大化独立训练模型损失,同时在某些 p 范数中保持接近原始输入
![[Pasted image 20240922201700.png]]
两种方法生成的后门图像,使原图像很难分类,但又不明显错误分类
-
研究动机:
- 主要研究问题:该论文提出了“clean-label”后门攻击的概念,研究如何在攻击者只使用正确标注的数据时,成功将恶意后门植入到机器学习模型中。
-
方法:
- 详细方法:作者利用了对抗样本生成技术,如投影梯度下降(PGD),来生成具有目标触发特征的样本。这些样本的标签依然正确,但通过细微的扰动,将其植入训练数据中,训练后的模型在检测带有相同触发的输入时会错误分类为攻击者指定的类别。
-
结果:
- 主要发现的总结:该研究表明,通过清洁标签样本可以成功实现后门攻击,且在多个常见的深度学习模型和数据集上都具有较高的攻击成功率。具体来说,攻击成功率在CIFAR-10等数据集上可达90%以上。
攻击尝试:
- 仅使用目标类输入:攻击无效。标签不变模型没有理由将trigger与目标标签相关联而忽略原始特征
因此攻击思路是令原始图像难以分类,从而让模型难以学习,转而依靠trigger的特征。除非中毒率超级高。
为了确保标签不变需要将攻击限制在小扰动上
- Latent space interpolation方法:在两个不同类别图像之间插值生成新样本
![[Pasted image 20240922210430.png]]
![[Pasted image 20240922210444.png]]
使用生成模型
优化找到与两个图像接近的潜在空间向量
在两线性向量间进行线性插值,用生成模型生成后门图像
后门图像形似二原始图像以一定比例的混合
![[Pasted image 20240922210913.png]]
后门图像表示随插值程度变化的改变
- Adversarial perturbations方法:在训练集中加入扰动制作后门样本
![[Pasted image 20240922212150.png]]
在一定扰动范围约束下找到令模型损失函数最大的后门样本形式
最大程度模型误分类
![[Pasted image 20240922212314.png]]
展示了在一定约束条件下的图像变化程度,可以发现约束宽松时会导致图像视觉语义显著发生改变