原标题One Pixel Attack for Fooling Deep Neural Networks
论文:
One pixel attack for fooling deep neural networksarxiv.org![b6d1e2ff5f75d1f60b40069d79971d29.png](https://i-blog.csdnimg.cn/blog_migrate/a27ad9df794be282adec768a3483a6ca.jpeg)
概述:最近的研究表明,通过向输入向量添加相对较小的扰动,可以很容易地改变深度神经网络(DNN)的输出。在本文中,研究人员分析了一种攻击在一个非常有限的情况下,只有一个像素可以修改。为此,研究人员们提出了一种基于差分进化(DE)的单像素对抗性摄动的新算法。它需要较少的对抗的信息(黑盒攻击)来欺骗。结果表明,67.97%的自然图像Kaggle CIFAR-10测试数据集和16.04%的ImageNet (ILSVRC 2012)测试图像可以扰乱至少一个目标类通过修改只是一个像素平均74.03%和22.91%的信心。我们还在原来的CIFAR-10数据集上显示了同样的漏洞。因此,提出的攻击探索了在极端有限的情况下对抗性机器学习的一种不同的方式,表明当前的dnn也容易受到这种低维数攻击。此外,我们还说明了DE(广义上说,进化计算)在对抗性机器学习领域的一个重要应用:创建能够有效生成低成本对神经网络进行对抗性攻击的工具,以评估鲁棒性。
![d6b12df0219f018b34cf66c69105f6a3.png](https://i-blog.csdnimg.cn/blog_migrate/00fbb71cb1b050824307d895eba1aea2.jpeg)
![4a9706b82899cb01069819e4db4ffa09.png](https://i-blog.csdnimg.cn/blog_migrate/710c939b0c21799c13016e7f1f71d6cd.jpeg)
DNN会受到对抗样本的影响,加入扰动,不会影响图像的特征语义,但会使得神经网络的分类发生偏差。大部分的攻击都依赖于梯度的扰动,需要模型和数据的先验知识。
OnePixelAttack的创新点:
- 基于拓扑学,对图像的邻域进行分析——几何上,前人的一些研究都是通过限制摄动向量的长度来分析自然象的邻域。例如,论文《Universal adversarial perturbations》指出:
普遍扰动给每个像素增加一个小值,这样它就可以在自然图像的周围的球面区域中搜索对抗图像。另一方面,提出的少像素摄动可以看作是用极低维的切片对输入空间进行切割,这是对其中高维DNN输入空间特征的一种不同的表达方式,单像素攻击是多像素攻击的一种极端情况。理论上,它可以从几何角度理解CNN的输入空间,而不是另一种极端情况:对每个像素都进行修改的通用对攻扰动。
- 一种感知的度量-攻击可以有效地隐藏在实践中的对抗修改。以前的作品都不能保证所造成的干扰是完全不可察觉的。缓解这个问题的一个直接方法是将修改的数量限制到尽可能少。具体来说,研究人员没有在理论上提出额外的约束条件,也没有考虑更复杂的代价函数来进行扰动,而是通过限制可以修改的像素的数量,提出了一个经验的解决方案。换句话说,我们使用像素的数量作为单位,而不是扰动向量的长度来测量扰动强度,并考虑最坏的情况是一个像素的修改,以及其他两种情况(即3个和5个像素)进行比较。
问题定义:
作者的初衷是搜索一种黑盒对抗样本,尽可能限制改动的像素,因此可以看作一种
![c6c680f02f276182d18a3dd1d4deeb67.png](https://i-blog.csdnimg.cn/blog_migrate/c604bd4d8cc0402bf9d01b7797571085.jpeg)
在三维输入空间(即图像有三个像素)中使用一个和两个像素扰动攻击的例子。绿色点(球体)表示自然图像。在单像素摄动的情况下,搜索空间为在自然图像上相交的三条垂线,用红黑条纹表示。对于两像素的扰动,搜索空间是三个蓝色(阴影)的二维平面。总之,一像素攻击和两像素攻击分别搜索原始三维输入空间的一维和二维切片上的摄动。
差分进化
差分进化(DE)是一种求解复杂多模态优化问题的基于种群的优化算法。DE属于进化算法(EA)的一般类别。此外,它在种群选择阶段具有保持多样性的机制,在实际应用中有望有效地找到比基于梯度的解决方案甚至其他类型进化算法]更优质的解决方案。具体地说,在每次迭代中,根据当前填充(父集合)生成另一组候选解决方案(子集合)。然后将这些子代与它们相应的亲代进行比较,如果它们比亲代更适合(具有更高的适合度值),它们就能存活下来。这样,只有通过亲子之间的比较,才能同时达到保持多样性和提高适应度值的目的。
DE不使用梯度信息进行优化,因此不要求目标函数是可微的或先前已知的。因此,与基于梯度的方法相比,它可以用于更广泛的优化问题(如不可微、动态、有噪声等)。使用DE生成对抗图像有以下主要优点:
- 寻找全局最优解的更高概率是一种元启发式,相对于梯度下降或贪婪搜索算法,它较少受到局部最小值的影响(这部分是由于多样性保持机制和使用一组候选解决方案)。此外,本文所考虑的问题具有严格的约束(只能修改一个像素),使其相对较难。
- 需要的先验信息更少- DE不需要像梯度下降法和拟牛顿法这样的经典优化方法那样要求优化问题是可区分的。这在产生敌对图像的情况下是至关重要的,因为1)有一些网络是不可微的,例如 Spectrum-diverse neuroevolution with unified neural models 。2)计算梯度需要更多的目标系统信息,这在很多情况下是不现实的。
- 简单性——这里提出的方法与使用的分类器无关。要使攻击发生,知道攻击的概率就足够了。
实际使用的方法:该算法将微扰编码成一个由微分演化优化的候选解阵列。一个候选解决方案包含固定数量的扰动,每个扰动都是包含5个元素的元组:扰动的x-y坐标和RGB值。一个扰动会改变一个像素。候选解的初始数量(种群)为400,在每次迭代中,通过使用通常的DE公式将产生另外400个候选解(子解):
实验
测试网络:全卷积、颜水成等人提出的网中网结构还有VGG-16、AlexNet
测试数据集:原始CIFAR-10和Kaggle CIFAR-10、ImageNet
测试结果:(摘录)
原始CIFAR-10攻击效果
![4370c0344a66ae8f3df8f62f3f815bf2.png](https://i-blog.csdnimg.cn/blog_migrate/79465caeecd4b8e2e7a3aa925faba7f2.jpeg)
Kaggle上训练CIFAR-10攻击效果
![3bd3316b065d14ef9841a61ded1c412a.png](https://i-blog.csdnimg.cn/blog_migrate/a2b8aa5693d7bb69d9d5db72a99c387a.png)
Imagenet上做有目标攻击的效果
![043d6cfc1dc4800f2421e02fd24155ab.png](https://i-blog.csdnimg.cn/blog_migrate/c32c43b8df7ef4457cf00491b7324e6e.jpeg)
![f23a7d26df5591295b6a53d499d949e8.png](https://i-blog.csdnimg.cn/blog_migrate/b64a7c0aacfd2004c8db06f6dec20a93.jpeg)
开源参考
https://github.com/Hyperparticle/one-pixel-attack-kerasgithub.com有Jupyter Notebook Demo,输入一张Balloon的图片,OnePixelAttack使其预测置信度降低,实际测试效果改天更新。