预备知识
因果图
作者采用珀尔的图形模型,其中有向边表示两个节点变量之间的因果关系。下图显示了所提出的
C
i
i
V
\mathrm{CiiV}
CiiV框架的因果图,其中
R
R
R、
C
C
C、
X
X
X、
Y
Y
Y分别表示的是采样、扰动、图像和预测。
X
←
C
→
Y
X \leftarrow C \rightarrow Y
X←C→Y表示的是有一个共同的扰动
C
C
C去影响
X
X
X和
Y
Y
Y的分布。
X
→
Y
X \rightarrow Y
X→Y表示的是希望有一个稳健的预测模型能够学习因果关系。
因果干预
因果干预的最终目标是通过移除所有虚假的相关性来识别 X → Y X \rightarrow Y X→Y的因果效应,表示为 P ( Y ∣ d o ( X = x ) ) P(Y|do(X=x)) P(Y∣do(X=x))。它被定义为 d − d- d−分离,通过观察扰动因素可以阻断虚假路径,给定 C = c C=c C=c,路径 X ← C → Y X \leftarrow C \rightarrow Y X←C→Y被阻断。
工具变量
有效的工具变量应满足以下两点:(1)它独立于扰动变量;(2)只能通过 X X X影响 Y Y Y,因此工具变量可以帮助从 R → X → Y R \rightarrow X \rightarrow Y R→X→Y中提取出 X → Y X \rightarrow Y X→Y的因果效应。
论文方法
对抗攻击的因果观
在因果关系中,
X
X
X对
Y
Y
Y的总效应和因果效应可以分别定义为
P
(
Y
∣
X
)
P(Y |X)
P(Y∣X)、
P
(
Y
∣
d
o
(
X
=
x
)
)
P(Y |do(X = x))
P(Y∣do(X=x))。一般的对抗攻击可以表述为在攻击范围扰动
D
ϵ
D_{\epsilon}
Dϵ内最大化篡改预测的概率
Y
=
y
ˉ
Y=\bar{y}
Y=yˉ,具体表达式表示为
max
δ
∈
D
ϵ
P
(
Y
=
y
ˉ
∣
X
=
x
+
δ
)
∝
∑
i
y
ˉ
i
log
(
e
f
i
(
x
+
δ
)
∑
j
e
f
i
(
x
+
δ
)
)
\max\limits_{\delta \in \mathcal{D}_{\epsilon}} P(Y=\bar{y}|X=x+\delta)\propto \sum\limits_{i} \bar{y}_i\log (\frac{e^{f_i(x+\delta)}}{\sum\limits_{j}e^{f_i(x+\delta)}})
δ∈DϵmaxP(Y=yˉ∣X=x+δ)∝i∑yˉilog(j∑efi(x+δ)efi(x+δ))其中
δ
\delta
δ表示的是添加到干净图片
x
x
x中的对抗扰动。
f
i
(
⋅
)
f_i(\cdot)
fi(⋅)和
f
j
(
⋅
)
f_j(\cdot)
fj(⋅)表示的是类别
i
i
i和
j
j
j的深度学习模型的输出,
y
ˉ
\bar{y}
yˉ和
y
′
(
y
′
≠
y
)
y^{\prime}(y^{\prime}\ne y)
y′(y′=y)为有目标攻击,
y
ˉ
=
−
y
\bar{y}=-y
yˉ=−y为无目标攻击,
D
ϵ
\mathcal{D}_{\epsilon}
Dϵ中最流行的定义是半径
ϵ
\epsilon
ϵ内
l
2
/
l
∞
l_2/l_{\infty}
l2/l∞范数下的封闭球。对抗扰动集合
D
ϵ
\mathcal{D}_{\epsilon}
Dϵ需要保留语义模式(即对抗扰动
δ
\delta
δ不能改变因果特征),所以
P
(
Y
∣
d
o
(
X
=
x
)
)
P(Y|do(X=x))
P(Y∣do(X=x))保持不变。
P
(
Y
∣
X
)
P(Y |X)
P(Y∣X)朝
Y
=
y
Y = y
Y=y的优化对抗攻击方向优化实际上会使篡改混淆效应最大化。所有的攻击包括基于梯度的攻击、无梯度的攻击和物理的攻击,都可以看作是上图 (a)。通过最大化扰动
X
←
C
→
Y
X \leftarrow C \rightarrow Y
X←C→Y,从而达到攻击的效果
对抗防御的因果观
由于输入图像 X X X中的未知和未观察到的扰动 C C C,直接为 P ( Y ∣ d o ( X = x ) ) P(Y |do(X = x)) P(Y∣do(X=x))调整 C C C是不切实际的。所有现存的对抗防御方法都可以被视为要么消除了 C → X C \rightarrow X C→X之间的依赖性,要么破坏了 C → Y C \rightarrow Y C→Y之间的相关性大致可以归纳为以下五类。
- 对抗训练:如上图(b)所示,对抗训练及其变体使用对抗样本 X = x + δ X = x + \delta X=x+δ去训练模型使得模型更加具有更好的鲁棒性,能够抵御对抗样本的攻击。只要推理攻击方法与用于生成训练样本的攻击相似,就可以防止被篡改的对抗扰动 δ \delta δ改变原来的 Y = y Y=y Y=y,从而阻断 C ↛ Y C \not \rightarrow Y C→Y。
- 数据增强:数据增强通过丰富数据分布从而增强模型的鲁棒性。 M i x u p \mathrm{Mixup} Mixup通过用不同 ( x , y ) (x,y) (x,y)对的线性组合来增加训练样本来增强深度模型的对抗鲁棒性,迫使对分类的影响与扰动的大小成比例(即小的对抗扰动 δ \delta δ仅引起很少的误分类效应)。如上图(c)所示,它破坏了 C → Y C \rightarrow Y C→Y之间的联系。但是,数据增强并不能列举出所有抵御对抗扰动因素的数据,因此像 P G D \mathrm{PGD} PGD这样的强大攻击可以轻松击败 M i x u p \mathrm{Mixup} Mixup模型。
- 生成分类器:代替直接从样本 X X X预测为标签 Y Y Y,防御者基于生成分类器试图找到哪个特定的类别 y = i y = i y=i可以生成最有可能的输入样本 x x x。 V A E \mathrm{VAE} VAE为每个类别 y = i y = i y=i生成样本 x i x_i xi,然后基于最高联合概率 p ( x i , y ) p(x_i,y) p(xi,y)预测 Y Y Y。虽然生成的图像将破坏 C ↛ X C \not \rightarrow X C→X的因果特征,但是它们的计算开销随着类别的数量线性增加,像ImageNet这样的大规模数据集下对于这种方法是不切实际的。
- 降噪:如上图(e)所示,去噪方法采用预训练网络或内部网络结构,以防止对抗攻击影响最终预测。预训练网络去噪方法通常进行不可微变换来去除噪声 C ↛ X C \not \rightarrow X C→X。网络内去噪方法净化了特征图,去除了网络 C ↛ Y C \not \rightarrow Y C→Y内的虚假相关性,然而它们中的大多数必须与对抗训练相结合以实现可靠的鲁棒性。
- 认证防御:与因果干预最典型和相关的方法是随机平滑法。通过引入一个更大的高斯噪声来实现了对 l 2 l_2 l2范数对抗扰动的可证明的鲁棒性。
工具变量估计
为了说明工具变量的使用,作者设计了两个因果图,如下图所示,其中每个节点都是一维变量,扰动因子
C
C
C从正态分布
N
(
0
,
1
)
N(0,1)
N(0,1)中采样,
R
R
R是工具变量,所有因果联系都可以用表示为
w
∗
w_{*}
w∗的线性权重建模。模型预测的总体效果可以表述为
P
(
Y
∣
X
)
∝
w
x
y
x
+
w
c
y
c
P(Y|X) \propto w_{xy}x+w_{cy}c
P(Y∣X)∝wxyx+wcyc因为
x
x
x依赖于未知的扰动因子如
x
=
w
c
x
c
+
h
x=w_{cx}c+h
x=wcxc+h,其中
h
h
h是
x
x
x的原因。作者不能简单地通过观察
(
X
,
Y
)
(X,Y)
(X,Y)对来直接估计因果效应
P
(
Y
∣
d
o
(
X
=
x
)
)
∝
w
x
y
x
P(Y|do(X=x))\propto w_{xy}x
P(Y∣do(X=x))∝wxyx。如果
C
C
C是可以观察到的,因果干预可以使用后门调整进行指导:
P
(
y
∣
d
o
(
x
)
)
=
∑
c
P
(
y
∣
x
,
c
)
P
(
c
)
P(y|do(x))=\sum_{c}P(y|x,c)P(c)
P(y∣do(x))=∑cP(y∣x,c)P(c)。因此,因果效应是根据观察到的总效应来估计:
P
(
Y
∣
d
o
(
X
=
x
)
)
∝
w
x
y
x
+
w
c
y
∑
c
c
⋅
p
(
c
)
=
w
x
y
x
P(Y|do(X=x))\propto w_{xy}x+w_{cy}\sum\limits_{c}c\cdot p(c)=w_{xy}x
P(Y∣do(X=x))∝wxyx+wcyc∑c⋅p(c)=wxyx其中
∑
c
c
⋅
p
(
c
)
=
0
\sum_c c \cdot p(c)=0
∑cc⋅p(c)=0,并且
c
c
c从高斯分布
N
(
0
,
1
)
\mathcal{N}(0,1)
N(0,1)中进行采样。
如果
C
C
C难以察觉的,如下图(b)所示,工具变量
R
R
R被引入,其中
X
X
X被
C
C
C和
R
R
R操作为
x
=
w
c
x
c
+
w
r
x
r
+
h
x=w_{cx}c+w_{rx}r+h
x=wcxc+wrxr+h
w
r
x
w
x
y
w_{rx}w_{xy}
wrxwxy通过访问
(
r
,
x
,
y
)
(r,x,y)
(r,x,y)三元组可以联合估计为
w
r
y
w_{ry}
wry。
P
(
Y
∣
d
o
(
X
=
x
)
)
P(Y|do(X=x))
P(Y∣do(X=x))是在不知道
C
C
C的情况下获得的,如下所示:
P
(
Y
∣
d
o
(
X
=
x
)
)
∝
w
r
x
−
1
w
r
y
x
=
w
x
y
x
P(Y|do(X=x))\propto w^{-1}_{rx}w_{ry}x=w_{xy}x
P(Y∣do(X=x))∝wrx−1wryx=wxyx其中
w
r
x
−
1
w^{-1}_{rx}
wrx−1是根据
(
r
,
x
)
(r,x)
(r,x)估算出来的。在工具变量估计的帮助下,无论线性模型中是否有
C
C
C的知识,因果干预都可以同等地进行。
论文方法 C i i V \mathrm{CiiV} CiiV
C i i V \mathrm{CiiV} CiiV框架由两部分组成,分别是因果效应估计和最小化渐近方差的一致损失。作者使用函数 g r x ( ⋅ ) g_{rx}(\cdot) grx(⋅)和 g r y ( ⋅ ) g_{ry}(\cdot) gry(⋅)来表示广义的 w r x w_{rx} wrx和 w r y w_{ry} wry。