黑盒攻击的分类_<EYD与机器学习>:对抗攻击基础知识(二十八)

本文介绍了一种基于感知度量的黑盒攻击方法,该方法能实现跨任务、跨模型、跨数据集的高迁移性。通过最大化神经变形表征(NRD)来生成对抗样本,实验表明这种方法在图像分类、目标检测和语义分割任务间具有良好的迁移能力。对比了I-FGSM、MI-FGSM和NRDM等方法,证明NRDM在保持攻击强度的同时,具有更强的泛化能力。
摘要由CSDN通过智能技术生成

c6e8b7a67810ec980af9bf4148c7030a.png

各位知乎儿好,上次分享的一篇综述论文中曾经提到目前对抗性例子的迁移性问题。其中作者曾指出,对抗样本的迁移分为三种:(1)在同一神经网络架构之间用不同的数据进行训练; (2)同一任务训练的不同神经网络架构之间的传输; (3)不同任务的DNNs之间的转移。第三种的难度最大,在当时还没有实现不同任务之间对抗样本迁移的例子。今天笔者想分享的就是一篇在不同任务之间进行迁移的对抗攻击方法,该论文所提算法可以实现生成的对抗样本既可以应用于图像分类网络,也可以迁移到目标检测和语义分割任务。

8c8dc690272714cea133ed2f4fbe24a1.png
  1. Task-generalizable Adversarial Attack based on Perceptual Metric

在这篇论文中,作者基于以下两个直觉提出了可以跨任务、跨模型、跨数据集的高迁移性g攻击方法:1)基于ImageNet(或其他大型数据集)训练的神经网络,学习到的是数据的内部表达,因此,可以用预先训练好的分类网络作为不同任务的基础模块。2)基于VGG内部表达的感知度量与人类的感知基本相似,不仅可以用于输入的失真度度量,还可以应用于稳定输入失真度。作者假设对抗样本是基于特定边界下的感知变形生成的,在深度特征空间中具有泛化能力,不受限于特定的任务。该方法的攻击效果如下图所示:

eae2350c1172dd4e979d7ed0b2484c58.png

作者将基于交叉熵损失的梯度类型的攻击方法定义为有监督对抗攻击,因为这些方法需要样本对于不同任务的label参与计算。而文中所提的方法不依赖于样本的类别信息,可以称之为无监督对抗攻击。文中选用了VGG-16的conv3.3层作为度量目标,计算原始样本和对抗样本在这层的输出的均方差作为神经变形表征(neural representation distortion,NRD)。算法通过最大化NRD来生成对抗样本,实验证明该类基于特征表征差异生成的对抗样本可以在不同结构不同任务之间迁移(在ImageNet,MS-COCO,CAMVID等数据集上进行实验)。

1.1 I-FGSM与MI-FGSM

我们都知道,I-FGSM比FGSM的白盒攻击强度更强,但相对于单步方法,泛化能力更弱,即黑盒攻击能力较弱。之前对这种现象的解释是,FGSM欠拟合于特定模型,故白盒攻击能力较弱,而I-FGSM过拟合于特定模型,导致泛化能力较弱。而动量迭代梯度算法[1]则综合了两者的优势,既保持了高白盒攻击成功率,也达成了较好的泛化能力。作者对I-FGSM、和MI-FGSM进行了黑盒攻击实验,利用Inception-v3生成对抗样本,攻击Inception-v4。

c4825d870f832dd011a0d7e46a8f51b0.png

实验结果如上图所示,随着迭代次数增加,I-FGSM的攻击强度逐渐减弱,而MI-FGSM基本保持平缓,未出现明显的泛化能力降低的现象。分析两者的NRD可以发现,随着迭代次数增加,I-FGSM生成的对抗样本的NRD逐渐降低,而MI-FGSM则基本保持稳定。作者由此推论,较大的NRD可能意味着更好的泛化能力。

1.2 Neural Representation Distortion Method(NRDM)

文中,作者提出直接最大化深度特征表示损失的方法来生成d对抗样本,优化方程如下:

5774d8a465e7eb9c910fb76cbff3d7e2.png

其中

是一个基分类器,
是中间表征层,
是允许的扰动强度。下图为该算法的伪代码:

162df15d720ae8d46e40c15160a9c984.png

在第一轮迭代时,对图像添加随机噪声,以初始化神经表征差异。在随后的迭代次数中,重复步骤(5)~(6)以生成对抗样本。

1.3 实验结果

下图可视化了不同方法(基于VGG-16)所生成的对抗样本:

5b4e363adb3fb0837c9e1ef7db87465f.png

下表展示了该方法在不同模型上的攻击效果,行表示源模型,列表示被攻击模型。

9ef5fa723389692ccff8e54b8c9295eb.png

由上表可得到以下结论:

1)在干净模型上,NRDM所生成的对抗样本具有更强的泛化能力;

2)相较于其他模型,基于VGG-16生成的对抗样本具有更强的h泛化能力,证实了本文选取VGG-16作为特征表征模型的合理性;

3)对于NRDM在对抗训练的模型上表现不佳的情况,作者归咎于NRDM并未使用样本的类别信息。

7178cb67d4bd4303f6ec4ba21dfb3dd1.png

上图展示了随着迭代次数的增加,不同方法的黑盒攻击强度的变化过程,当迭代次数增加时,I-FGSM的强度锐减,而MI-FGSM和DIM无明显变化,NRDM的攻击强度则逐渐增强。

除此之外,作者还使用VGG-16对CAMVID数据集进行扰动,攻击语义分割模型,结果下面的图表所示:

b154e9c3915e8c1bf1700186f5ae455d.png

bed1b7ef2b4f0486da39fe3651f1ed4d.png

攻击后,单像素预测的准确率从79.7%降低到32.59%,即达成了47.11%的攻击成功率。同理,作者还在MS-COCO数据集上使用VGG-16的特征空间进行了攻击实验。实验表明,NRDM可以将IOU由53.78%降低到5.16%。

6fb15ea30d167135f10341db50b3b18d.png

e1042c4fa49e0329be596d43f2c14503.png

总结:

今天跟大家分享的又是一篇对抗攻击的方法,文章非常新,是三月二十六号刚挂到网上的资源。这篇文章中,这篇文章不仅提出了用NRD去表征算法泛化能力,还证实了VGG-16的强大黑盒攻击能力。虽然更大容量的模型常被说具有更强的鲁棒性,但更深更高精度的识别成功率,并不意味着基于该模型生成的对抗样本具有更好的泛化能力。

还是那句n老话,本文是基于笔者对论文的理解编辑的,如果有理解错误的地方,还望大家批评指正,期待与大家共同进步~~最后的最后,小声bb,知乎这个编辑器太坑了,好几次编辑出错,极度影响码字速率。

参考文献:

[1] Y. Dong, F. Liao, T. Pang, H. Su, J. Zhu, X. Hu, and J. Li.Boosting adversarial attacks with momentum. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值