Adversarial Visual Robustness by Causal Intervention

最新推荐文章于 2024-07-12 23:16:35 发布

道2024

最新推荐文章于 2024-07-12 23:16:35 发布

阅读量273

点赞数

本文链接：https://blog.csdn.net/qq_38406029/article/details/118541457

版权

本文探讨了因果图在理解和防御对抗攻击中的应用。通过介绍珀尔的图形模型，展示了如何利用因果关系来分析对抗攻击。文章提出，对抗攻击旨在通过扰动影响预测模型，而防御策略则包括对抗训练、数据增强、生成分类器、降噪和认证防御。特别地，工具变量的概念被用来估计因果效应，即使在无法直接观测到扰动因素的情况下。CiiV框架结合了因果效应估计和一致损失最小化，以提高模型的鲁棒性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

预备知识

因果图

作者采用珀尔的图形模型，其中有向边表示两个节点变量之间的因果关系。下图显示了所提出的 $\mathrm{CiiV}$ 框架的因果图，其中 $R$ 、 $C$ 、 $X$ 、 $Y$ 分别表示的是采样、扰动、图像和预测。 $\leftarrow C \rightarrow Y$ 表示的是有一个共同的扰动 $C$ 去影响 $X$ 和 $Y$ 的分布。 $\rightarrow Y$ 表示的是希望有一个稳健的预测模型能够学习因果关系。
在这里插入图片描述

因果干预

因果干预的最终目标是通过移除所有虚假的相关性来识别 $\rightarrow Y$ 的因果效应，表示为 $P (Y ∣ d o (X = x))$ 。它被定义为 $d -$ 分离，通过观察扰动因素可以阻断虚假路径，给定 $C = c$ ，路径 $\leftarrow C \rightarrow Y$ 被阻断。

工具变量

有效的工具变量应满足以下两点：（1）它独立于扰动变量；（2）只能通过 $X$ 影响 $Y$ ，因此工具变量可以帮助从 $\rightarrow X \rightarrow Y$ 中提取出 $\rightarrow Y$ 的因果效应。

论文方法

对抗攻击的因果观

在这里插入图片描述
在因果关系中， $X$ 对 $Y$ 的总效应和因果效应可以分别定义为 $P (Y ∣ X)$ 、 $P (Y ∣ d o (X = x))$ 。一般的对抗攻击可以表述为在攻击范围扰动 $D_{\epsilon}$ 内最大化篡改预测的概率 $Y=\bar{y}$ ，具体表达式表示为 $\max\limits_{\delta \in \mathcal{D}_{\epsilon}} P(Y=\bar{y}|X=x+\delta)\propto \sum\limits_{i} \bar{y}_i\log (\frac{e^{f_i(x+\delta)}}{\sum\limits_{j}e^{f_i(x+\delta)}})$ 其中 $\delta$ 表示的是添加到干净图片 $x$ 中的对抗扰动。 $f_i(\cdot)$ 和 $f_j(\cdot)$ 表示的是类别 $i$ 和 $j$ 的深度学习模型的输出， $\bar{y}$ 和 $y^{\prime}(y^{\prime}\ne y)$ 为有目标攻击， $\bar{y}=-y$ 为无目标攻击， $\mathcal{D}_{\epsilon}$ 中最流行的定义是半径 $\epsilon$ 内 $l_2/l_{\infty}$ 范数下的封闭球。对抗扰动集合 $\mathcal{D}_{\epsilon}$ 需要保留语义模式（即对抗扰动 $\delta$ 不能改变因果特征），所以 $P (Y ∣ d o (X = x))$ 保持不变。 $P (Y ∣ X)$ 朝 $Y = y$ 的优化对抗攻击方向优化实际上会使篡改混淆效应最大化。所有的攻击包括基于梯度的攻击、无梯度的攻击和物理的攻击，都可以看作是上图 (a)。通过最大化扰动 $\leftarrow C \rightarrow Y$ ，从而达到攻击的效果

对抗防御的因果观

由于输入图像 $X$ 中的未知和未观察到的扰动 $C$ ，直接为 $P (Y ∣ d o (X = x))$ 调整 $C$ 是不切实际的。所有现存的对抗防御方法都可以被视为要么消除了 $\rightarrow X$ 之间的依赖性，要么破坏了 $\rightarrow Y$ 之间的相关性大致可以归纳为以下五类。

对抗训练：如上图（b）所示，对抗训练及其变体使用对抗样本 $\delta$ 去训练模型使得模型更加具有更好的鲁棒性，能够抵御对抗样本的攻击。只要推理攻击方法与用于生成训练样本的攻击相似，就可以防止被篡改的对抗扰动 $\delta$ 改变原来的 $Y = y$ ，从而阻断 $\not \rightarrow Y$ 。
数据增强：数据增强通过丰富数据分布从而增强模型的鲁棒性。 $\mathrm{Mixup}$ 通过用不同 $(x, y)$ 对的线性组合来增加训练样本来增强深度模型的对抗鲁棒性，迫使对分类的影响与扰动的大小成比例（即小的对抗扰动 $\delta$ 仅引起很少的误分类效应）。如上图（c）所示，它破坏了 $\rightarrow Y$ 之间的联系。但是，数据增强并不能列举出所有抵御对抗扰动因素的数据，因此像 $\mathrm{PGD}$ 这样的强大攻击可以轻松击败 $\mathrm{Mixup}$ 模型。
生成分类器：代替直接从样本 $X$ 预测为标签 $Y$ ，防御者基于生成分类器试图找到哪个特定的类别 $y = i$ 可以生成最有可能的输入样本 $x$ 。 $\mathrm{VAE}$ 为每个类别 $y = i$ 生成样本 $x_i$ ，然后基于最高联合概率 $p(x_i,y)$ 预测 $Y$ 。虽然生成的图像将破坏 $\not \rightarrow X$ 的因果特征，但是它们的计算开销随着类别的数量线性增加，像ImageNet这样的大规模数据集下对于这种方法是不切实际的。
降噪：如上图（e）所示，去噪方法采用预训练网络或内部网络结构，以防止对抗攻击影响最终预测。预训练网络去噪方法通常进行不可微变换来去除噪声 $\not \rightarrow X$ 。网络内去噪方法净化了特征图，去除了网络 $\not \rightarrow Y$ 内的虚假相关性，然而它们中的大多数必须与对抗训练相结合以实现可靠的鲁棒性。
认证防御：与因果干预最典型和相关的方法是随机平滑法。通过引入一个更大的高斯噪声来实现了对 $l_2$ 范数对抗扰动的可证明的鲁棒性。

工具变量估计

为了说明工具变量的使用，作者设计了两个因果图，如下图所示，其中每个节点都是一维变量，扰动因子 $C$ 从正态分布 $N (0, 1)$ 中采样， $R$ 是工具变量，所有因果联系都可以用表示为 $w_{*}$ 的线性权重建模。模型预测的总体效果可以表述为 $\propto w_{xy}x+w_{cy}c$ 因为 $x$ 依赖于未知的扰动因子如 $x=w_{cx}c+h$ ，其中 $h$ 是 $x$ 的原因。作者不能简单地通过观察 $(X, Y)$ 对来直接估计因果效应 $P(Y|do(X=x))\propto w_{xy}x$ 。如果 $C$ 是可以观察到的，因果干预可以使用后门调整进行指导： $P(y|do(x))=\sum_{c}P(y|x,c)P(c)$ 。因此，因果效应是根据观察到的总效应来估计： $P(Y|do(X=x))\propto w_{xy}x+w_{cy}\sum\limits_{c}c\cdot p(c)=w_{xy}x$ 其中 $\sum_c c \cdot p(c)=0$ ，并且 $c$ 从高斯分布 $\mathcal{N}(0,1)$ 中进行采样。
如果 $C$ 难以察觉的，如下图（b）所示，工具变量 $R$ 被引入，其中 $X$ 被 $C$ 和 $R$ 操作为 $x=w_{cx}c+w_{rx}r+h$ $w_{rx}w_{xy}$ 通过访问 $(r, x, y)$ 三元组可以联合估计为 $w_{ry}$ 。 $P (Y ∣ d o (X = x))$ 是在不知道 $C$ 的情况下获得的，如下所示： $P(Y|do(X=x))\propto w^{-1}_{rx}w_{ry}x=w_{xy}x$ 其中 $w^{-1}_{rx}$ 是根据 $(r, x)$ 估算出来的。在工具变量估计的帮助下，无论线性模型中是否有 $C$ 的知识，因果干预都可以同等地进行。
在这里插入图片描述