Adversarial Visual Robustness by Causal Intervention

本文探讨了因果图在理解和防御对抗攻击中的应用。通过介绍珀尔的图形模型,展示了如何利用因果关系来分析对抗攻击。文章提出,对抗攻击旨在通过扰动影响预测模型,而防御策略则包括对抗训练、数据增强、生成分类器、降噪和认证防御。特别地,工具变量的概念被用来估计因果效应,即使在无法直接观测到扰动因素的情况下。CiiV框架结合了因果效应估计和一致损失最小化,以提高模型的鲁棒性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

预备知识

因果图

 作者采用珀尔的图形模型,其中有向边表示两个节点变量之间的因果关系。下图显示了所提出的 C i i V \mathrm{CiiV} CiiV框架的因果图,其中 R R R C C C X X X Y Y Y分别表示的是采样、扰动、图像和预测。 X ← C → Y X \leftarrow C \rightarrow Y XCY表示的是有一个共同的扰动 C C C去影响 X X X Y Y Y的分布。 X → Y X \rightarrow Y XY表示的是希望有一个稳健的预测模型能够学习因果关系。
在这里插入图片描述

因果干预

 因果干预的最终目标是通过移除所有虚假的相关性来识别 X → Y X \rightarrow Y XY的因果效应,表示为 P ( Y ∣ d o ( X = x ) ) P(Y|do(X=x)) P(Ydo(X=x))。它被定义为 d − d- d分离,通过观察扰动因素可以阻断虚假路径,给定 C = c C=c C=c,路径 X ← C → Y X \leftarrow C \rightarrow Y XCY被阻断。

工具变量

 有效的工具变量应满足以下两点:(1)它独立于扰动变量;(2)只能通过 X X X影响 Y Y Y,因此工具变量可以帮助从 R → X → Y R \rightarrow X \rightarrow Y RXY中提取出 X → Y X \rightarrow Y XY的因果效应。

论文方法

对抗攻击的因果观

在这里插入图片描述
 在因果关系中, X X X Y Y Y的总效应和因果效应可以分别定义为 P ( Y ∣ X ) P(Y |X) P(YX) P ( Y ∣ d o ( X = x ) ) P(Y |do(X = x)) P(Ydo(X=x))。一般的对抗攻击可以表述为在攻击范围扰动 D ϵ D_{\epsilon} Dϵ内最大化篡改预测的概率 Y = y ˉ Y=\bar{y} Y=yˉ,具体表达式表示为 max ⁡ δ ∈ D ϵ P ( Y = y ˉ ∣ X = x + δ ) ∝ ∑ i y ˉ i log ⁡ ( e f i ( x + δ ) ∑ j e f i ( x + δ ) ) \max\limits_{\delta \in \mathcal{D}_{\epsilon}} P(Y=\bar{y}|X=x+\delta)\propto \sum\limits_{i} \bar{y}_i\log (\frac{e^{f_i(x+\delta)}}{\sum\limits_{j}e^{f_i(x+\delta)}}) δDϵmaxP(Y=yˉX=x+δ)iyˉilog(jefi(x+δ)efi(x+δ))其中 δ \delta δ表示的是添加到干净图片 x x x中的对抗扰动。 f i ( ⋅ ) f_i(\cdot) fi() f j ( ⋅ ) f_j(\cdot) fj()表示的是类别 i i i j j j的深度学习模型的输出, y ˉ \bar{y} yˉ y ′ ( y ′ ≠ y ) y^{\prime}(y^{\prime}\ne y) y(y=y)为有目标攻击, y ˉ = − y \bar{y}=-y yˉ=y为无目标攻击, D ϵ \mathcal{D}_{\epsilon} Dϵ中最流行的定义是半径 ϵ \epsilon ϵ l 2 / l ∞ l_2/l_{\infty} l2/l范数下的封闭球。对抗扰动集合 D ϵ \mathcal{D}_{\epsilon} Dϵ需要保留语义模式(即对抗扰动 δ \delta δ不能改变因果特征),所以 P ( Y ∣ d o ( X = x ) ) P(Y|do(X=x)) P(Ydo(X=x))保持不变。 P ( Y ∣ X ) P(Y |X) P(YX) Y = y Y = y Y=y的优化对抗攻击方向优化实际上会使篡改混淆效应最大化。所有的攻击包括基于梯度的攻击、无梯度的攻击和物理的攻击,都可以看作是上图 (a)。通过最大化扰动 X ← C → Y X \leftarrow C \rightarrow Y XCY,从而达到攻击的效果

对抗防御的因果观

 由于输入图像 X X X中的未知和未观察到的扰动 C C C,直接为 P ( Y ∣ d o ( X = x ) ) P(Y |do(X = x)) P(Ydo(X=x))调整 C C C是不切实际的。所有现存的对抗防御方法都可以被视为要么消除了 C → X C \rightarrow X CX之间的依赖性,要么破坏了 C → Y C \rightarrow Y CY之间的相关性大致可以归纳为以下五类。

  • 对抗训练:如上图(b)所示,对抗训练及其变体使用对抗样本 X = x + δ X = x + \delta X=x+δ去训练模型使得模型更加具有更好的鲁棒性,能够抵御对抗样本的攻击。只要推理攻击方法与用于生成训练样本的攻击相似,就可以防止被篡改的对抗扰动 δ \delta δ改变原来的 Y = y Y=y Y=y,从而阻断 C ↛ Y C \not \rightarrow Y CY
  • 数据增强:数据增强通过丰富数据分布从而增强模型的鲁棒性。 M i x u p \mathrm{Mixup} Mixup通过用不同 ( x , y ) (x,y) (x,y)对的线性组合来增加训练样本来增强深度模型的对抗鲁棒性,迫使对分类的影响与扰动的大小成比例(即小的对抗扰动 δ \delta δ仅引起很少的误分类效应)。如上图(c)所示,它破坏了 C → Y C \rightarrow Y CY之间的联系。但是,数据增强并不能列举出所有抵御对抗扰动因素的数据,因此像 P G D \mathrm{PGD} PGD这样的强大攻击可以轻松击败 M i x u p \mathrm{Mixup} Mixup模型。
  • 生成分类器:代替直接从样本 X X X预测为标签 Y Y Y,防御者基于生成分类器试图找到哪个特定的类别 y = i y = i y=i可以生成最有可能的输入样本 x x x V A E \mathrm{VAE} VAE为每个类别 y = i y = i y=i生成样本 x i x_i xi,然后基于最高联合概率 p ( x i , y ) p(x_i,y) p(xi,y)预测 Y Y Y。虽然生成的图像将破坏 C ↛ X C \not \rightarrow X CX的因果特征,但是它们的计算开销随着类别的数量线性增加,像ImageNet这样的大规模数据集下对于这种方法是不切实际的。
  • 降噪:如上图(e)所示,去噪方法采用预训练网络或内部网络结构,以防止对抗攻击影响最终预测。预训练网络去噪方法通常进行不可微变换来去除噪声 C ↛ X C \not \rightarrow X CX。网络内去噪方法净化了特征图,去除了网络 C ↛ Y C \not \rightarrow Y CY内的虚假相关性,然而它们中的大多数必须与对抗训练相结合以实现可靠的鲁棒性。
  • 认证防御:与因果干预最典型和相关的方法是随机平滑法。通过引入一个更大的高斯噪声来实现了对 l 2 l_2 l2范数对抗扰动的可证明的鲁棒性。

工具变量估计

 为了说明工具变量的使用,作者设计了两个因果图,如下图所示,其中每个节点都是一维变量,扰动因子 C C C从正态分布 N ( 0 , 1 ) N(0,1) N(0,1)中采样, R R R是工具变量,所有因果联系都可以用表示为 w ∗ w_{*} w的线性权重建模。模型预测的总体效果可以表述为 P ( Y ∣ X ) ∝ w x y x + w c y c P(Y|X) \propto w_{xy}x+w_{cy}c P(YX)wxyx+wcyc因为 x x x依赖于未知的扰动因子如 x = w c x c + h x=w_{cx}c+h x=wcxc+h,其中 h h h x x x的原因。作者不能简单地通过观察 ( X , Y ) (X,Y) (X,Y)对来直接估计因果效应 P ( Y ∣ d o ( X = x ) ) ∝ w x y x P(Y|do(X=x))\propto w_{xy}x P(Ydo(X=x))wxyx。如果 C C C是可以观察到的,因果干预可以使用后门调整进行指导: P ( y ∣ d o ( x ) ) = ∑ c P ( y ∣ x , c ) P ( c ) P(y|do(x))=\sum_{c}P(y|x,c)P(c) P(ydo(x))=cP(yx,c)P(c)。因此,因果效应是根据观察到的总效应来估计: P ( Y ∣ d o ( X = x ) ) ∝ w x y x + w c y ∑ c c ⋅ p ( c ) = w x y x P(Y|do(X=x))\propto w_{xy}x+w_{cy}\sum\limits_{c}c\cdot p(c)=w_{xy}x P(Ydo(X=x))wxyx+wcyccp(c)=wxyx其中 ∑ c c ⋅ p ( c ) = 0 \sum_c c \cdot p(c)=0 ccp(c)=0,并且 c c c从高斯分布 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1)中进行采样。
 如果 C C C难以察觉的,如下图(b)所示,工具变量 R R R被引入,其中 X X X C C C R R R操作为 x = w c x c + w r x r + h x=w_{cx}c+w_{rx}r+h x=wcxc+wrxr+h w r x w x y w_{rx}w_{xy} wrxwxy通过访问 ( r , x , y ) (r,x,y) (r,x,y)三元组可以联合估计为 w r y w_{ry} wry P ( Y ∣ d o ( X = x ) ) P(Y|do(X=x)) P(Ydo(X=x))是在不知道 C C C的情况下获得的,如下所示: P ( Y ∣ d o ( X = x ) ) ∝ w r x − 1 w r y x = w x y x P(Y|do(X=x))\propto w^{-1}_{rx}w_{ry}x=w_{xy}x P(Ydo(X=x))wrx1wryx=wxyx其中 w r x − 1 w^{-1}_{rx} wrx1是根据 ( r , x ) (r,x) (r,x)估算出来的。在工具变量估计的帮助下,无论线性模型中是否有 C C C的知识,因果干预都可以同等地进行。
在这里插入图片描述

论文方法 C i i V \mathrm{CiiV} CiiV

C i i V \mathrm{CiiV} CiiV框架由两部分组成,分别是因果效应估计和最小化渐近方差的一致损失。作者使用函数 g r x ( ⋅ ) g_{rx}(\cdot) grx() g r y ( ⋅ ) g_{ry}(\cdot) gry()来表示广义的 w r x w_{rx} wrx w r y w_{ry} wry

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

道2024

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值