对抗攻击总结
研究深度:对抗攻击>部署阶段攻>后门攻击
一、训练阶段攻击(后门攻击)
中毒样本视觉不可感知,在良性数据上表现正常,在中毒样本上误分类。
二、部署阶段攻击
部署的是正常模型,攻击者局部修改正常模型的决策边界,改变对目标良性样本的预测。
三、推理阶段攻击(对抗攻击)
攻击者对良性样本进行小幅度修改,使模型对其误分类。
物理攻击步骤:数字空间生成扰动–数字扰动转化为物理对象(海报,贴纸等)–通过相机或扫描仪将物理扰动转换回数字空间,然后对被攻击模型进行推理。
物理攻击在第一阶段产生的扰动和最终输入攻击模型的扰动之间存在两种转换,包括数字到物理的转换和物理到数字的转换。这两种变换很可能带来扰动的畸变,攻击者必须增强所产生的扰动对这些畸变的鲁棒性。通常要求对抗性示例在物理世界中看起来自然或真实。
(1)白盒攻击
基于优化的攻击:攻击性能更强、扰动幅度更小,一次只能对一个样本进行优化。
基于梯度的攻击:时间效率较高,但不能保证对抗攻击有效。
基于GAN的攻击:时间效率更高。
基于优化实现
由于L∞范数不可导,将目标函数定义为分类损失,使用约束扰动的范数。
L∞范数
* 快速梯度优化FSGM 73
* 迭代梯度优化I-FGSM 98
* 投影梯度下降PGD 132
* 动量迭代MI-FGSM 50
* 加速梯度NI-FGSM 116
* AutoPGD 44
L2范数
* DeepFool 137
* C&W 22
基于梯度实现
基于GAN实现
* advGAN 205
* PhysGAN 97
* PS-GAN 118
* CGAN-Adv 224
* AP-GAN 237
* AC-GAN 169
* MAG-GAN 33
* LG-GAN 246
* AdvFaces 45
* AT-GAN 184
物理攻击
通用对抗攻击
非加性攻击
非加性攻击分为:几何转换和风格转换。
几何转换
- 旋转变换、平移、仿射