背景
对抗攻击能够生成与原图非常接近,但被神经网络以高置信度错分的样本,对于网络的稳健性分析与提升都具有重要的意义,成为了近年来的研究重点。当前大部分对抗攻击属于白盒攻击,即需要完全知道被攻击网络的参数与特性。黑盒攻击的研究取得了一些进展,但仍需多次访问黑盒模型,或依赖被攻击网络与己方网络间的强相似性。因此,迄今的攻击方法无法产生通用攻击样本数据库。
数据集
通过对网络共同语义弱点的分析,我们成功实现了对未知网络的纯黑箱攻击,从而生成了对若干网络同时起到破坏作用的对抗样本。由此,我们对 ImageNet 的部分图像进行了攻击,生成了 1000 类共 96020 张对抗样本。这些样本平均在每个像素上误差3.8个灰度值,但却成功欺骗了在 ImageNet 上进行训练并且达到很好效果的神经网络。主流的 VGG, ResNet, Inception, Xception, DenseNet 等的Top-1识别错误率(即攻击成功率)大多能够达到 90% 以上。