语义上的对抗样本 -- SemanticAdv

本文链接：https://blog.csdn.net/qq_34206952/article/details/115733004

语义上的对抗样本 – SemanticAdv

这次介绍的是ECCV2020的一篇文章，SemanticAdv: Generating Adversarial Examples via Attribute-conditioned Image Editing

介绍

我们知道，对抗样本一直以来对深度网络来说是一个不小的威胁，通过一个微小的、人眼不可区分的扰动，最终使得神经网络的结果出错（当然，不限于分类任务）。

有关于对抗样本，可以查看我的这篇文章

形式化来说，可以写成
$f(x+\delta)=f(x_{adv})\neq f(x)\\ ||\delta||\leq \varepsilon$
在以往的对抗样本攻击之中，我们通常通过一个范数来约束这个扰动，使得这个扰动尽可能地小，同时造成的影响尽可能大。

这些扰动，都是类似于噪声，是一种像素级别的扰动，实际场景中可能很难构造出来，比如自动驾驶任务，你很难对摄像头所拍摄的帧上施加上对应的像素级别扰动。那么有没有一种扰动，是在语义级别上进行扰动的呢？

语义级别的扰动，你可以理解为，一张图片中，一个人的存在与否，这种实体级别的扰动。

这里给出语义级别扰动的例子

如上图所示，左右列的图片的区别是一种语义上的不同，比如是否有一辆行驶中的汽车。

生成语义级别的扰动

从先前的示例可以看到，图片发生了十分自然的变化，聪明的读者肯定想到了，这里肯定是采用了GAN！

这里直接给出，SementicAdv的Pipeline

如上图所示，可以看到在输入层面，有一个属性向量（Attribute Vector）以及初始图像，通过修改这个属性向量，得到不同的中间特征，然后对两个中间特征进行融合得到了一个对抗图像。

有点类似StarGAN系列，即输入有一个属性向量，控制着语义变换的方向

那么如何构造攻击呢？

我们已经知道了如何生成语义级别上的扰动，但是我们如何利用梯度信息，对语义扰动的方向进行指导呢？

我们给出文章中的定义 (这个定义是在目标任务为身份识别 (Identity Verification) 的情况下)
$x_{adv} = \arg\min_{x^*}\mathcal{L}(x^*)\\ \mathcal{L}(x^*) = \mathcal{L}_{adv}(\mathcal{x^*;M, y^{tgt}})+\lambda\cdot \mathcal{L}_{smooth}(x^*)$
其中 $y^{tgt}$ 是目标的标签向量， $\mathcal{M}$ 是我们想要攻击的嵌入模型 (模型会输出一个向量，用来刻画该图片)， $\mathcal{L}_{smooth}$ 误差用来优化生成的图像质量。

更为细节地
$\mathcal{L}_{adv} (x^*;\mathcal{M},y^{tgt})=\max\{k, \Phi_{\mathcal{M}}^{id}(x^*, x^{tgt})\}$
其中 $\Phi_{\mathcal{M}}^{id}(x^*, x^{tgt})$ 度量由模型 $\mathcal{M}$ 产生的嵌入向量的距离。