1.名词解释
攻击方法
白盒攻击:需要完整的知道model的结构和对应的梯度等信息。
黑盒攻击:不需要完整的知道model的结构和对应的梯度等信息,只需要知道经过该模型的预测结果,用于作为评测的数据输入。
目标攻击:指将原始样本通过攻击后,指定攻击后的结果类别。
非目标攻击:指将原始样本通过攻击后,结果类别与原有的模型类别不同即可。
单步攻击:只需执行一次操作就可获得对抗样本。
迭代攻击:需要执行多步迭代操作才能获得样本。
一般,迭代攻击产生的对抗样本比单步攻击产生的对抗样本效果好,但需要更多的执行时间。
置信度:指模型将输入样本分类为某种类别的概率。一个好的对抗样本会导致目标模型以高置信度输出错误分类。
类别标签:指模型的输出类别结果。
攻击方法总结
白盒攻击:基于梯度的攻击方法、基于优化的攻击方法、其他
基于梯度的攻击方法:关键是最大化损失函数L(y,y’)。
FGSM:Fast Gradient Sign Method快速梯度符号法,沿着梯度反方向添加扰动使损失函数快速增大,最终导致模型分类错误。
优点:单步攻击,快速生成对抗样本。
缺点:计算所得扰动不精确,攻击成功率较低。
BIM/l-FGSM:Basic Iterative Method 基础迭代方法/Iterative Fast Gradient Sign Method。将FGSM扰动计算过程细分为多步,通过剪裁操作将图像像素限制在有效区域内,从而提高攻击率。
缺点:生成的对抗样本容易过拟合到局部极值点,影响对抗样本的迁移性。
MI-FGSM:Momentum Iterative Fast Gradient Sign Method.动量迭代快速梯度符号法在l-FGSM基础上增加动量,稳定了梯度更新方向,有效越过了局部极值点。
优点:具备良好的迁移性,可用于黑盒攻击。
DI2-FGSM:Diverse Inputs Iterative Fast Gradient Sign Method.多样性攻击方法,基于图像变换解决了l-FGSM过拟合问题。
优点:具备良好的迁移性,可用于黑盒攻击。
PGD:Project Gradient Descent.投影梯度下降方法。在l-FGSM基础上增加迭代次数,改善了攻击效果。
JSMA:Jacobian-based Saliency Map Attack 基于雅克比矩阵的显著攻击方法。利用梯度信息计算出对分类结果影响最大的像素位置,然后再该像素上添加扰动,从而得到对抗样本。
ILCM:Iterative Least-likely Class Methon,迭代最小可能类方法,在l-FGSM基础上,将损失函数的真实标签替换为目标标签。实现由目标攻击到非目标攻击的转换。
基于优化的攻击方法:
L-BFGS:
c&w:
ATNs:
EAD:
One-pixel:修改1像素,利用差分进化优化算法得到对抗扰动。
其他白盒攻击算法:
DeepFool:
UAP:Universal Adversarial Perturbations.通用的对抗扰动方法
黑盒攻击:基于迁移的攻击方法、基于梯度估计的攻击方法、基于决策的攻击方法、基于GAN的攻击方法、其他黑盒攻击方法
基于迁移的攻击方法:
代替模型的获取、提高对抗样本的迁移性是关键。
代替模型的获取:查询目标模型以获取相似训练数据集,并利用该数据集训练生成替代模型。重点:①降低对目标模型的查询成本。②减轻由于训练数据集过小带来的替代模型过拟合现象。
基于梯度估计的攻击方法
主要通过查询目标模型来获取置信度,之后在进行梯度估计,最后利用估算的梯度结合白盒攻击方法生成对抗样本。
ZOO:Zeroth-Order Optimization 利用零阶优化方法提高梯度估算的速度,但未对置信度的获取过程进行优化。
基于决策的攻击方法
通过随机游走的方式摆脱对目标模型查询的依赖。攻击者先得到扰动值较大的初始对抗样本,以此为基础在模型决策边界(对抗性区域与非对抗性区域之间的边界)附近寻找幅度更小的扰动值来获取最终的对抗样本。
基于GAN的攻击方法
对抗样本的防御方法
分成梯度遮蔽、数据预处理、对抗样本检测、对抗训练。
梯度遮蔽:防御性蒸馏方法:defensive distilation.
数据预处理:在图像数据输入模型前对其进行有效处理来降低对抗噪声带来的影响。
对抗样本检测:一种是差异性判断方法,通过对抗样本与正常样本之间的差异进行不一致性判断;一种是检测器方法,训练额外的检测器来检测对抗样本。
未来研究方向:
①物理世界中的对抗样本
参考:
[1]陈梦轩,张振永,纪守领,魏贵义,邵俊.图像对抗样本研究综述[J].计算机科学,2022,49(02):92-106.