面向深度学习系统的对抗样本攻击与防御

最新推荐文章于 2024-07-20 07:45:00 发布

双人-工作室

最新推荐文章于 2024-07-20 07:45:00 发布

阅读量6.7k

点赞数 6

文章标签：人工智能机器学习对抗样本视频讲解

原文链接：https://nesa.zju.edu.cn/download/%E9%9D%A2%E5%90%91%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%B3%BB%E7%BB%9F%E7%9A%84%E5%AF%B9%E6%8A%97%E6%A0%B7%E6%9C%AC%E6%94%BB%E5%87%BB%E4%B8%8E%E9%98%B2%E5%BE%A1by%E5%87%8C%E7%A5%A5%E7%AD%89.pdf

版权

研究生涯即将开始，现在做的是对抗样本攻击与防御，开始每天写博客，记录一下自己的学习历程~

1.对抗样本

尽管深度学习解决某些复杂问题的能力超出了人类水平，但也面临多种安全性威胁。2013年，塞格德等人首先在图像分类领域发现了一个非常有趣的现象：攻击者通过构造轻微扰动来干扰输入样本，可以使基于深度神经网络（DNN）的图片识别系统输出攻击者想要的任意错误结果。研究人员称这类具有攻击性的输入样本为对抗样本，其生成算法即为对抗样本的攻击算法。随后，越来越多的研究发现，除了DNN模型以外，对抗样本同样能成功地攻击强化学习模型、循环神经网络模型等，以及语音识别、自动驾驶、文本处理、恶意软件检测等不同的深度学习应用领域。

2.攻击算法分类

可以简单地分为非目标攻击和目标攻击，非目标攻击只要求深度学习模型将对抗样本误分类，不要求误分类的标签；目标攻击要求深度学习模型将对抗样本误分类成攻击者指定的标签。考虑到攻击算法中是否可以迭代地求解对抗样本，非目标攻击和目标攻击可以进一步细分为非目标单步攻击、非目标迭代攻击、目标单步攻击和目标迭代攻击。

非目标攻击	单步攻击	FGSM,R+FGSM
非目标攻击	迭代攻击	BIM,PGD,U-MI-FGSM,DeepFool,UAP,OPtMargin
目标攻击	单步攻击	LLC,R+LLC
目标攻击	迭代攻击	ILLC,T-MI-FGSM,JSMA,C&W,EAD,stAdv

在非目标攻击算法中，单步攻击的核心思路是沿着梯度的反方向添加扰动，从而拉大对抗样本相对于原样本的距离来产生对抗样本。对于非目标迭代攻击而言，对FGSM这类攻击的直接扩展是迭代地采取多个小步骤扰动，在每个扰动后调整扰动方向以达到攻击的目的，这类迭代算法包括BIM,PGD,U-MI-FGSM等。此外，非目标迭代攻击还包括DeepFool,UAP,OPtMargin等攻击算法。

在目标攻击算法中，单步攻击主要包括LLC和R+LLC两种，分别对应FGSM和R+FGSM攻击，不同的是，LLC和R+LLC算法用DNN分类器预测的最不可能类别的标签来代替FGSM算法中使用的真实标签，然后从原始图像中减去计算出来的扰动从而得到对抗样本。对目标迭代攻击而言，类似地扩展LLC攻击可以得到ILLC和T-MI-FGSM攻击算法。

3.攻击效用评估

(1)误分类性

通过计算攻击算法生成的所有对抗样本的误分类率和误分类置信度，可以有效地评估算法的误分类性。

误分类率指的是攻击样本集中所有成功欺骗分类器的样本总数占总数的百分比。误分类置信度则用来进一步衡量攻击算法的误分类性，具体定义为对抗样本集中所有成功攻击的对抗样本被误分类的标签的平均置信度。误分类标签的置信度越大，表明该攻击算法生成的对抗样本会以更大的置信度被DNN分类器误分类。

(2)不可见性

不可见性是对抗样本攻击成功的必要条件，要求攻击算法生成的扰动对人眼不可见，即对抗样本中的扰动应该是细微的，且人眼无法分辨。因此，对抗样本攻击算法一般会将不可见性纳入攻击算法的目标函数中。但另一方面，如何衡量对抗样本中扰动的不可见性是一个极具挑战性的问题。

(3)鲁棒性

鲁棒性表示对抗样本在物理世界中仍保持其攻击深度学习模型的能力。在现实世界中，图像、语音等样本在被DNN等深度学习模型预测前不可避免地会经过各种各样的转换处理过程，包括可能的自然噪声、输入数据的预处理等过程。因此，对抗样本的鲁棒性会对攻击算法在现实世界中是否可以成功攻击产生直接影响。

(4)攻击效率

攻击算法生成对抗样本的效率也是攻击算法的重要性质之一。攻击效率指的是攻击算法生成对抗样本所需的时间，一般用每个对抗样本的平均生成时间来代替。生成对抗样本的时间越短，攻击算法的效率越高。

4.防御方法

对抗样本的存在使得深度学习在某些安全敏感领域的应用受到限制甚至是严重的威胁。因此，如何对对抗样本的攻击行为进行有效的防御是当前深度学习安全领域极具有挑战性的问题。当前针对对抗样本的防御方法主要有完全防御和检测防御两种。完全防御的目标是使得防御后的DNN分类器能够将对抗样本识别为正确的标签；而检测防御方法只需要识别出输入样本是否为对抗样本即可。

完全防御	对抗训练	一般对抗训练，PGD对抗训练，集成对抗训练
	梯度掩蔽	深度压缩网络，蒸馏防御，输入梯度正则化
	输入转换	集成输入转换，输入随机转换，PixelDefense,温度计编码
	分类方法	基于邻域分类
检测防御	基于局部本征维数的检测，Feature Squeezing,MagNet