论文那些事—ZOO: Zeroth Order Optimization Based Black-box Attacks

最新推荐文章于 2024-02-22 13:13:00 发布

凉茶i

最新推荐文章于 2024-02-22 13:13:00 发布

阅读量4.3k

点赞数 3

文章标签：深度学习计算机视觉机器学习

本文链接：https://blog.csdn.net/shuweishuwei/article/details/121136859

版权

ZOO: Zeroth Order Optimization Based Black-box Attacks to Deep Neural Networks without Training Substitute Models（CCS2017）

1、摘要/背景

与训练替代模型的设置类似，在本文中，我们提出了一种有效的黑盒攻击，它也只能访问目标DNN的输入（图像）和输出（置信度）。然而，与利用替代模型的攻击可转移性不同，我们提出了基于零阶优化（ZOO）的攻击来直接估计目标DNN的梯度，以生成对抗性示例。我们使用零阶随机坐标下降以及降维、分层攻击和重要性抽样技术来有效地攻击黑盒模型。通过利用零阶优化，可以实现对目标DNN的改进攻击，从而无需训练替代模型，避免攻击可转移性的损失。

2、黑盒攻击方法论——强行计算梯度

由于模型是黑盒的，无法知道模型的参数或者内部结构，只能知道输入和输出，所以此时梯度信息是无法计算的，也就无法进行反向传播。当然无法进行反向传播前人提出一个使用替代模型来生成对抗样本，从而攻击黑盒模型，成功率也是不错的。

替代模型——是指利用类似分布的数据集，或者利用多次输入输出的结果，训练一个新的模型，并在新的模型上进行反向传播，进而得到一个对抗样本。

这篇论文的黑盒攻击受到C＆W攻击的启发，C＆W攻击是对DNN的最强白盒对抗攻击之一。

本文直接提出一种新方法，使用零阶优化（ZOO）来直接估计目标模型的梯度：

数学优化中有一个分支叫做无导数优化（有很多别名：DFO，无梯度优化，零次优化，gradient-free，derivative-free等）

虽然不能获取梯度值，但可以用取极限的方法（即导数的定义）来获得一个对梯度的估计，这是允许的。

首先我们先对输入 x 进行一个扰动 x = x + h 其中 h = 0.0001 是一个常量值，e 是一个标准单位向量，你可以理解为某一位为1其余都是0的向量。最后使用对称差商(symmetric difference quotient )来估计梯度

在增加一次查询就能得到二阶信息

有了这两个梯度估计值，就可以直接对 x 进行梯度下降优化了。比如牛顿法，那么则是

空间降维攻击

公式主要借鉴CW攻击，然后因为有的图像太大，进行零阶优化需要优化每一个像素点，所以提出限定对抗噪声的大小，比如所要攻击的空间p=299x299x3，则可以限定对抗噪声空间m=32x32x3，提高效率，最终差别并不是很大。

分级攻击

采用了图像缩放的思想，比如我想攻击的目标p=299x299x3，则第一次我只优化 m1=32x32x3的空间大小，第二次向外扩张m2=64x64x3的空间大小，最后扩张到m3=299x299x3的空间大小，这样优化有利于收敛。

优化重要像素

图像角落或边缘的像素通常不太重要，而主对象附近的像素对于成功的攻击可能至关重要。因此，在攻击过程中，我们对接近敌方噪声指示的主要对象的更多像素进行采样。我们建议将图像划分为8×8个区域，并根据该区域像素值变化的大小来分配采样概率。我们运行每个区域中绝对像素值变化的最大池，向上采样到所需的维度，然后规范化所有值，使其总和为1。每隔几次迭代，我们根据最近的变化更新这些采样概率。当然如果你的图像本身很小，就可以考虑分级攻击。

3、总结

提出ZOO攻击成功地将原始类别的概率降低了160倍以上（从97％降低到约0.6％），同时将目标类别的概率提高了1000倍以上（从0.0006％提高到了0.6％以上，这是前1名））以实现成功的攻击。
对于FGSM，不将其L2与其他方法进行比较，因为它是L ∞ 攻击

实验结果表明，ZOO的攻击具有与最新的白盒攻击（C&W）相当的性能
ZOO黑盒攻击在攻击成功率和失真方面明显优于基于替代模型的黑盒攻击，因为ZOO的方法不会在攻击可传递性方面造成任何性能损失
提出了几种加速技术，以将ZOO攻击应用于在ImageNet上训练的大型DNN，而基于替代模型的黑盒攻击很难扩展到像Inception-v3这样的大型DNN。

这篇文章总结的不够完整，因为还有部分公式没有逻辑清楚，需要去看数学优化方面的理论，有机会再补充。

凉茶i

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
论文那些事—ZOO: Zeroth Order Optimization Based Black-box Attacks

替代模型是指利用类似分布的数据集，或者利用多次输入输出的结果，训练一个新的模型，并在新的模型上进行反向传播，进而得到一个对抗样本。
复制链接

扫一扫