[论文笔记]UNDERSTANDING AND ENHANCING THE TRANSFERABILITY OF ADVERSARIAL EXAMPLES(archive)

最新推荐文章于 2024-09-29 17:07:09 发布

大鲨鱼冲鸭

最新推荐文章于 2024-09-29 17:07:09 发布

阅读量1.3k

点赞数 4

分类专栏：深度学习/机器学习文章标签：对抗攻击 adversarial attack

本文链接：https://blog.csdn.net/Invokar/article/details/98989633

版权

深度学习/机器学习专栏收录该内容

37 篇文章 21 订阅

订阅专栏

UNDERSTANDING AND ENHANCING THE TRANSFERABILITY OF ADVERSARIAL EXAMPLES(archive)

文章简介

在本研究中，作者系统地研究了两类可能影响对抗性例子迁移能力的因素。

一是研究模型相关因素：network architecture, model capacity, test accuracy。

二是利用损失函数的局部光滑性设计对抗样本。

并提出了一个有效的可以提高迁移性的攻击方法：variance-reduced attack，该方法的核心思想就是在计算梯度时同时考虑改点周围的其他点的梯度，最后取平均值作为最终的梯度更新方向。
- DataSet: Cifar-10, ImageNet
- 类型: 研究的是black-box场景下的迁移问题
- Strength: 可以应用于任意基于梯度的方法，其核心是为了移除梯度的不稳定性从而更好地迁移到目标模型
Contribution
- 我们用数值方法探讨了对抗性转移如何依赖于特定于模型的因素。首先，发现对抗性转移是不对称的(即从模型A生成的对抗性例子可以很容易地转移到模型B，并不意味着反过来也是自然的), 这说明基于决策边界相似性的解释是不充分的，因为相似性本身是一个对称量。 第二，在大多数情况下，muti-step攻击似乎比one-step攻击更有效(与Adversarial examples in the physical world矛盾)。最后，针对大模型和小模型，并且在测试集上都有不错的准确度时，由大模型生成的对抗样本具有更差的可迁移性，这说明大模型的鲁棒性更强
- 研究了loss函数surface的性质，发现损失曲面的局部非光滑性损害了生成的对抗样本的可移植性。
- 基于前面的研究，提出了一种简单但是相当有效的提高可迁移性的攻击方法，应用locally averaged gradient来生成对抗样本。由于局部平均具有平滑效应，抑制了损耗面的局部振荡
HOW MODEL-SPECIFIC FACTORS AFFECT TRANSFERABILITY
- Architect
  
  通过IGSM和FGSM的攻击效果对比，我们无法说到底是muti-step攻击效果强还是one-step攻击效果强。
  
  可以发现对抗攻击在不同模型之前不存在对称性。比如IGSM从densenet121到vgg13_bn和vgg13_bn到densenet121攻击成功率是明显不对称，相差非常大。
- Model Capacity and Test error
  
  横轴：测试集的Top-1 error
  
  纵轴：用于生产对抗样本的模型参数量(model capacity)
  
  标记值：迁移率
  
  从图中可以看到，生成的样本攻击性强的模型(标记值越大攻击能力越强)基本集中在左下角。所以说high-accuracy模型具有更强的攻击能力。而对于那些有比较高的Top-1 error或者model capacity大的(参数量多)的模型而言，他们的生成的对抗样本迁移性不强。另一个奇怪的现象就是通过深度网络产生的对抗样本反而具有更差的迁移性，不过值得一提的是，深度网络对对抗样本有更强的鲁棒性。
shattered gradients：

Shattered gradients的研究表明，即使模型在训练集上已经训练得很好了，但是模型的梯度仍然是非常noisy的。作者认为这种梯度的noise损害了对抗样本的迁移能力。下图中模型A和B都已经训练得很好了，他们的level sets应该是全局相似的。但是可以发现比如说A他的边界是不稳定的，也就是会出现梯度方向在很小一段距离内会出现震荡，这就破坏了模型的迁移性。但是通过smooth A的landspace，可以在一定程度上更加稳定的梯度方向，从而增加对抗样本的迁移能力。

于是作者提出了一个平滑landspace的方法，其建模过程如下：

最后的梯度方向是期望，也就达到了我们所想要的平滑目标。下图中作者选取 $\delta=15$ , 其中 $m$ 是随机的采样数， $G_A$ 通过取平均值的方法来代替期望(注意：这里对B是不进行平滑的，因为是black-box场景，无法获得目标模型的梯度信息)，可以发现随着 $m$ 的增加，即越来越平滑，对应的余弦相似度也会增加，这说明这种方法是比较有效的。

作者进一步可视化了resnet34和densenet121的决策边界，这幅图还是需要解释一下，因为有点难懂。

横轴：表示resnet34的某一点的梯度方向 $G_A$ (这是一个单位向量，在 $m = 1000$ 和 $\delta=15$ 条件下的采样平均值)，横轴上的值可以理解为往这个方向前进的相对距离。

纵轴：对 $G_A$ 使用施密特正交化后的正交向量 $h_A$ ，同理该轴上的值也可以理解为往 $h_A$ 这个方向前进的相对距离。

必需强调的是，无论是 $\hat{G}_A$ 还是 $\hat{h}_A$ 都是对应于resnet34而言的

图上的每一个点可以理解为经过下面公式扰动后从高维空间映射到2维空间(这个2维空间其实是 $\hat{G}_A$ 和 $\hat{h}_A$ 张成的平面)的投影图，其中图上点的颜色代表在原高维空间中对应的类别:
$clip(x+u\hat{G}_A+v\hat{h}_A, 0, 255)$
可以发现对于resnet34，无论是 $\hat{G}_A$ 方向还是 $\hat{h}_A$ 方向，稍微移动一段距离就可以产生误分类。而densenet121在 $\hat{h}_A$ 方向鲁棒性更强， $\hat{G}_A$ 方向倒是不够鲁棒。这个结果也进一步地证明了local average gradient确实提取到了 $g_A$ 中的可迁移部分。(这里我的理解是，在 $\hat{G}_A$ 方向，两者的鲁棒性比较接近，这说明该在该方向上若我对原图 $x$ 进行轻微的扰动，能够在souce model上产生误分类，在targeted model上也能产生误分类的效果，这就说明了我们的方法确实提取到了能够满足迁移性的方向)

Method:

其中 $G_t$ 是用一个mini-batch来近似 $\mathbb{E}_{\xi \sim \mathcal{N(0, \delta^2I)}}[\triangledown J(x+\xi)]$ ，然后通过迭代的方法进行更新。

性能：
从表中可以看出，variance-reduced gradient能够提高对抗样本的迁移能力。然而该方法从lenet迁移到resnet-20和densenet效果不是很明显。作者认为是lenet并不是一个比较强的模型，学到的信息有限。我觉得可能是因为模型不是特别深，所以他的决策边界并没有非常显著的震荡性，从而平滑效果有限。

[Note]: 原文中还进行targeted、untargeted以及emsemble等对比分析，皆能表明本文的方法优越，这里就不在赘述。
- test accuracy(Cifar-10):
  - lenet: 76.9%
  - resnet-20: 92.4%
  - densenet: 94.2%