1 研究目的
针对基于同义词替换的文本对抗攻击,提出一种模型无关的可认证防御方案。
2 问题定义
2.1 基于同义词替换的文本对抗攻击
在文本分类任务中,模型 f ( X ) f(\mathbf{X}) f(X)将输入 X ∈ X \mathbf{X} \in \mathcal{X} X∈X映射为标签 c c c,其中 X = x 1 , . . , x L \mathbf{X}=x_1,..,x_L X=x1,..,xL是由 L L L个单词组成的句子。本文关注的攻击方式指,攻击者根据同义词表,任意地用同义词替换句子中的单词,以误导模型。
具体来说,对于任意单词 x x x,考虑一个预先定义的同义词集合 S x S_x Sx,其中包含 x x x的同义词和 x x x本身。本文假设同义词关系是对称的,即 x x x存在于 x x x的所有同义词的同义词集合内。同义词集合 S x S_x Sx可以基于GLOVE构建。
给定输入句子 X = x 1 , . . , x L \mathbf{X}=x_1,..,x_L X=x1,..,xL,攻击者可以将 X \mathbf{X} X中最多 R ≤ L R\leq L R≤L个单词 x i x_i xi扰动为它们的同义词 x ′ i ∈ S x i x{'}_{i} \in S_{x_i} x′i∈Sxi,构建出对抗样本 X ′ = x 1 ′ , . . , x L ′ \mathbf{X'}=x'_1,..,x'_L X′=x1′,..,xL′。:
S X : = { X ′ : ∣ ∣ X ′ − X ∣ ∣ 0 ≤ R , x i ′ ∈ S x i , ∀ i } , S_{\mathbf{X}}:=\{\mathbf{X}':||\mathbf{X}'-\mathbf{X}||_0 \leq R,x'_i\in S_{x_i}, \forall i \}, SX:={X′:∣∣X′−X∣∣0≤R,xi′∈Sxi,∀i},
其中 S X S_{\mathbf{X}} SX代表对抗样本候选集合。 ∣ ∣ X ′ − X ∣ ∣ 0 ||\mathbf{X}'-\mathbf{X}||_0 ∣∣X′−X∣∣0为汉明距离。攻击者的目标是找到 X ′ ∈ S X \mathbf{X}'\in S_{\mathbf{X}} X′∈SX满足 f ( X ′ ) ≠ f ( X ) f(\mathbf{X}') \neq f(\mathbf{X}) f(X′)=f(X)。
2.2 可认证鲁棒(Certified Robustness)
形式化地,如果模型 f f f能够对所有可能的单词替换扰动一致地给出正确的预测,即,
y
=
f
(
X
)
=
f
(
X
′
)
,
∀
X
′
∈
S
X
,
(1)
y=f(\mathbf{X})=f(\mathbf{X}'), \forall \mathbf{X}' \in S_{\mathbf{X}}, \tag1
y=f(X)=f(X′),∀X′∈SX,(1)
其中
y
y
y代表样本
X
\mathbf{X}
X的真实标签。除非有额外的结构信息可用,否则这需要检查
S
X
S_{\mathbf{X}}
SX中的所有候选句子,其数量随
R
R
R呈指数增长。本文主要考虑最具挑战性的
R
=
L
R=L
R=L的情况。
2.3 验证平滑分类器(Certifying Smoothed Classifiers)
本文的思想是用一个更加平滑的模型来替代
f
f
f。平滑分类器
f
R
S
f^{RS}
fRS通过在输入空间引入随机扰动构建,
f
R
S
=
arg max
c
∈
Y
P
Z
∼
Π
X
(
f
(
Z
)
=
c
)
f^{RS}=\argmax_{c \in \mathcal{Y}} \mathbb{P}_{\mathbf{Z} \sim Π_{\mathbf{X}}} (f(\mathbf{Z})=c)
fRS=c∈YargmaxPZ∼ΠX(f(Z)=c)
其中,
Π
X
Π_{\mathbf{X}}
ΠX是输入空间上的概率分布,它规定了
X
\mathbf{X}
X周围的随机扰动。我们将
f
R
S
f^{RS}
fRS对标签
c
c
c的置信度定义为:
g
R
S
(
X
,
c
)
:
=
P
Z
∼
Π
X
(
f
(
Z
)
=
c
)
。
g^{RS}(\mathbf{X},c):=\mathbb{P}_{\mathbf{Z} \sim Π_{\mathbf{X}}} (f(\mathbf{Z})=c)。
gRS(X,c):=PZ∼ΠX(f(Z)=c)。
需要合适地选择扰动分布,以便 f R S ( X ) f^{RS}(\mathbf{X}) fRS(X)近似 f ( X ) f(\mathbf{X}) f(X),同时也要足够随机,使得 f R S f^{RS} fRS足够光滑,以便进行鲁棒性验证。
本文将 Π X Π_{\mathbf{X}} ΠX定义为在随机词替换集合上的均匀分布(uniform distribution)。具体而言,设 P x P_{x} Px是词汇表中单词 x x x的扰动集,这与同义词集 S x S_x Sx不同。本文通过余弦相似度计算GLOVE上的top K最近邻居来构建 P x P_{x} Px,其中 K K K是一个超参数,控制扰动集合的大小。
对于句子 X = x 1 , . . . , x L \mathbf{X}=x_1,...,x_L X=x1,...,xL,sentence-level的扰动分布 Π X Π_{\mathbf{X}} ΠX被定义为每个单词等概率地被独立随机地扰动为 P x i P_{x_i} Pxi中的词,即,
Π
X
(
Z
)
=
Π
i
=
1
L
I
{
z
i
∈
P
x
i
}
∣
P
x
i
∣
,
Π_{\mathbf{X}}(\mathbf{Z})= Π_{i=1}^{L}\frac{\mathbb{I}\{z_i \in P_{x_i}\}}{|P_{x_i}|},
ΠX(Z)=Πi=1L∣Pxi∣I{zi∈Pxi},
其中,
Z
=
z
1
,
.
.
.
,
z
L
\mathbf{Z}=z_1,...,z_L
Z=z1,...,zL是扰动文本,
∣
P
x
i
∣
|P_{x_i}|
∣Pxi∣代表
P
x
i
P_{x_i}
Pxi的大小。
I
{
.
}
\mathbb{I}\{.\}
I{.}是指示函数。
指示函数的含义是:当输入为True的时候,输出为1,输入为False的时候,输出为0。
请注意,随机扰动 Z \mathbf{Z} Z和对抗候选样本 X ′ ∈ S X \mathbf{X}' \in S_{\mathbf{X}} X′∈SX是不同的。
3 可认证鲁棒
f R S f^{RS} fRS鲁棒的可认证的条件是,对于任意的 X ′ ∈ S X \mathbf{X}' \in S_{\mathbf{X}} X′∈SX,都有 y = f R S ( X ′ ) y=f^{RS}(\mathbf{X}') y=fRS(X′),其中 y y y是真实标签。满足它的充分条件是,
min X ′ ∈ S X g R S ( X ′ , y ) ≥ max X ′ ∈ S X g R S ( X ′ , c ) , ∀ c ≠ y , \min_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',y) \geq \max_{\mathbf{X}' \in S_{\mathbf{X}}}g^{RS}(\mathbf{X}',c), \forall c \neq y, X′∈SXmingRS(X′,y)≥X′∈SXmaxgRS(X′,c),∀c=y,
其中, g R S ( X ′ , y ) g^{RS}(\mathbf{X}',y) gRS(X′,y)的下边界大于任意 c ≠ y c \neq y c=y时 g R S ( X ′ , c ) g^{RS}(\mathbf{X}',c) gRS(X′,c)的上边界。因此,关键步骤是计算任意 c ∈ Y c \in \mathcal{Y} c∈Y和 X ′ ∈ S X \mathbf{X}' \in S_{\mathbf{X}} X′∈SX, g R S ( X ′ , c ) g^{RS}(\mathbf{X}',c) gRS(X′,c)的上下边界。
3.1 Theorem 1(可认证的上/下边界)
假设对于每个单词 x x x及其同义词 x ′ ∈ S x x' \in S_{x} x′∈Sx,扰动集 P x P_x Px满足 ∣ P x ∣ = ∣ P x ′ ∣ |P_{x}|=|P{x'}| ∣Px∣=∣Px′∣。我们定义,
q x = min x ′ ∈ S x ∣ P x ∩ P x ′ ∣ / ∣ P x ∣ , q_x=\min_{x' \in S_{x}} |P_x \cap P_{x'}|/|P_{x}|, qx=x′∈Sxmin∣Px∩Px′∣/∣Px∣,
其中, q x q_x qx表示两个不同扰动集之间的重叠。对于一个给定的句子 X = x 1 , . . . , x L \mathbf{X}=x_1,...,x_L X=x1,...,xL,我们根据 q x q_x qx排列所有的单词,使 q x i 1 ≤ q x i 2 ≤ . . . ≤ q x i L q_{{x_i}_1} \leq q_{{x_i}_2} \leq ... \leq q_{{x_i}_L} qxi1≤qxi2≤...≤qxiL。可以得到,
min X ′ ∈ S X g R S ( X ′ , c ) ≥ max ( g R S ( X , c ) − q X , 0 ) \min_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',c) \geq\max(g^{RS}(\mathbf{X},c)-q_{\mathbf{X}},0) X′∈SXmingRS(X′,c)≥max(gRS(X,c)−qX,0)
max X ′ ∈ S X g R S ( X ′ , c ) ≤ min ( g R S ( X , c ) + q X , 1 ) . \max_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',c) \leq\min(g^{RS}(\mathbf{X},c)+q_{\mathbf{X}},1). X′∈SXmaxgRS(X′,c)≤min(gRS(X,c)+qX,1).
其中 q X : = 1 − Π j = 1 R q x i j q_{\mathbf{X}}:=1-Π_{j=1}^{R}q_{{x_{i}}_j} qX:=1−Πj=1Rqxij。这表示,对于任意 c ∈ Y c \in \mathcal{Y} c∈Y,有 ∣ g R S ( X ′ , c ) − g R S ( X , c ) ∣ ≤ q X |g^{RS}(\mathbf{X}',c)-g^{RS}(\mathbf{X},c)|\leq q_{\mathbf{X}} ∣gRS(X′,c)−gRS(X,c)∣≤qX。主要思想是,通过随机平滑,对于任意 X ′ ∈ S X \mathbf{X}' \in S_{\mathbf{X}} X′∈SX, g R S ( X ′ , c ) g^{RS}(\mathbf{X}',c) gRS(X′,c)和 g R S ( X , c ) g^{RS}(\mathbf{X},c) gRS(X,c)的差距最多是 q X q_{\mathbf{X}} qX。
因此, g R S ( X ′ , c ) g^{RS}(\mathbf{X}',c) gRS(X′,c)的上边界上\下边界为 g R S ( X , c ) ± q X g^{RS}(\mathbf{X},c) \pm q_{\mathbf{X}} gRS(X,c)±qX
这避免了困难的对抗性优化,而只需要在原始输入上评估 g R S ( X , c ) g^{RS}(\mathbf{X},c) gRS(X,c)。
Theorem 1 证明
Lemma 1 将 X {X} X映射为0或1的全部有界函数定义为 H [ 0 , 1 ] \mathcal{H}_{[0,1]} H[0,1],对所有 h ∈ H [ 0 , 1 ] h \in \mathcal{H_{[0,1]}} h∈H[0,1],定义 Π X [ h ] = E Z ∼ Π X [ h ( Z ) ] Π_{{X}}[h]=\mathbb{E}_{Z \sim Π_{{X}}}[h(Z)] ΠX[h]=EZ∼ΠX[h(Z)]。
那么,对于任意 X {X} X和任意 x ∈ Y x \in \mathcal{Y} x∈Y,都有
min
X
′
∈
Π
X
g
R
S
(
X
′
,
c
)
≥
min
h
∈
H
[
0
,
1
]
min
X
′
∈
Π
X
{
Π
X
′
[
h
]
s
.
t
.
Π
X
[
h
]
=
g
R
S
(
X
,
c
)
}
:
=
g
l
o
w
R
S
(
X
,
c
)
\min_{{X}' \in Π_{{X}}}g^{RS}({X}',c) \geq \min_{h \in \mathcal{H}_{[0,1]}}\min_{{X}' \in Π_{{X}}}\{Π_{{X}'}[h] \quad s.t. \quadΠ_{{X}}[h]=g^{RS}(X,c) \}:=g^{RS}_{low}(X,c)
X′∈ΠXmingRS(X′,c)≥h∈H[0,1]minX′∈ΠXmin{ΠX′[h]s.t.ΠX[h]=gRS(X,c)}:=glowRS(X,c)
max
X
′
∈
Π
X
g
R
S
(
X
′
,
c
)
≤
max
h
∈
H
[
0
,
1
]
max
X
′
∈
Π
X
{
Π
X
′
[
h
]
s
.
t
.
Π
X
[
h
]
=
g
R
S
(
X
,
c
)
}
:
=
g
u
p
R
S
(
X
,
c
)
\max_{{X}' \in Π_{{X}}}g^{RS}({X}',c) \leq \max_{h \in \mathcal{H}_{[0,1]}}\max_{{X}' \in Π_{{X}}}\{Π_{{X}'}[h] \quad s.t. \quadΠ_{{X}}[h]=g^{RS}(X,c) \}:=g^{RS}_{up}(X,c)
X′∈ΠXmaxgRS(X′,c)≤h∈H[0,1]maxX′∈ΠXmax{ΠX′[h]s.t.ΠX[h]=gRS(X,c)}:=gupRS(X,c)
Lemma 1 证明
证明很直接。定义
h
0
[
X
]
=
I
{
f
(
X
)
=
c
}
h_{0}[X]=\mathbb{I}\{f(X)=c\}
h0[X]=I{f(X)=c},由于
g
R
S
(
X
,
c
)
=
P
Z
∼
Π
X
(
f
(
Z
)
=
c
)
=
Π
X
[
h
0
]
.
g^{RS}(X,c) = \mathbb{P}_{Z∼Π_X} (f(Z) = c) = Π_X[h_0].
gRS(X,c)=PZ∼ΠX(f(Z)=c)=ΠX[h0].
因此,
h
0
h_0
h0满足优化中的约束,显然
g
R
S
(
X
′
,
c
)
=
Π
X
′
[
h
0
]
≥
min
{
Π
X
′
[
h
]
s
.
t
.
Π
X
[
h
]
=
g
R
S
(
X
,
c
)
}
g^{RS}(X', c) = Π_X' [h_0] ≥ \min \{Π_{X'} [h] \quad s.t. \quad Π_X[h] = g^{RS}(X, c)\}
gRS(X′,c)=ΠX′[h0]≥min{ΠX′[h]s.t.ΠX[h]=gRS(X,c)}
在两边取
min
X
′
∈
S
X
\min_{X'} \in S_X
minX′∈SX得出下界。上界遵循相同的推导。
因此,问题归结为优化问题的推导边界。
数学符号 | 含义 |
---|---|
X X X | 输入样本 |
Π X Π_X ΠX | 输入空间上的概率分布,规定了 X X X周围的随机扰动 |
g R S ( X , c ) g^{RS}(X, c) gRS(X,c) | 平滑分类器输出样本 X X X关于标签 c c c的置信度,等价于 P Z ∼ Π X ( f ( Z ) = c ) \mathbb{P}_{Z\sim Π_X} (f(Z) = c) PZ∼ΠX(f(Z)=c) |
h h h | 任意将输入映射到0或1的函数 |
E Z ∼ Π X [ h ( Z ) ] \mathbb{E}_{Z∼Π_X}[h(Z)] EZ∼ΠX[h(Z)] | 函数 h h h接收输入 Z Z Z产生的输出的期望,简写为 Π X [ h ] Π_{X}[h] ΠX[h] |
3.2 Proposition1
对于一个句子
X
\mathbf{X}
X及其标签
y
y
y,我们定义,
y
B
=
arg max
c
∈
Y
,
c
≠
y
g
R
S
(
X
,
c
)
.
y_{B}=\argmax_{c \in \mathcal{Y}, c \neq y} g^{RS}(\mathbf{X}, c).
yB=c∈Y,c=yargmaxgRS(X,c).
然后,在定理1的条件下,我们可以验证,对于任意
X
′
∈
S
X
\mathbf{X}' \in S_{\mathbf{X}}
X′∈SX,都有
f
(
X
′
)
=
f
(
X
)
=
y
f(\mathbf{X}')=f(\mathbf{X})=y
f(X′)=f(X)=y的条件是,
Δ X = g R S ( X , y ) − g R S ( X , y B ) − 2 q X > 0. (2) \Delta_{\mathbf{X}}=g^{RS}(\mathbf{X},y)-g^{RS}(\mathbf{X},y_{B})-2q_{\mathbf{X}} >0. \tag2 ΔX=gRS(X,y)−gRS(X,yB)−2qX>0.(2)
因此,验证模型是否给出了一致正确的预测,只需检查
Δ
X
\Delta_{\mathbf{X}}
ΔX是否为正,这可以很容易地通过蒙特卡罗估计实现。如下图所示:
3.3 估计 g R S ( X , c ) g^{RS}(\mathbf{X},c) gRS(X,c)和 Δ X \Delta_{\mathbf{X}} ΔX
可以通过蒙特卡洛估计法来估计
g
R
S
(
X
,
c
)
g^{RS}(\mathbf{X},c)
gRS(X,c),即
∑
i
=
1
n
I
{
f
(
Z
(
i
)
=
c
)
}
/
n
\sum^{n}_{i=1} \mathbb{I}\{f(\mathbf{Z}^{(i)}=c)\}/n
∑i=1nI{f(Z(i)=c)}/n,其中,
Z
(
i
)
\mathbf{Z}^{(i)}
Z(i)是
Π
X
Π_{\mathbf{X}}
ΠX中独立同分布的样本。此外,
Δ
X
\Delta_{\mathbf{X}}
ΔX可以相应地近似。
利用浓度不等式,我们可以量化非渐近逼近误差(non-asymptotic approximation error)。这允许我们构建严格的统计过程,以拒绝零假设(null hypothesis),即,以给定的显著性水平(例如,1%),
f
R
S
f^{RS}
fRS在
X
\mathbf{X}
X处未被证明鲁棒(即
Δ
X
≤
0
\Delta_{\mathbf{X}} \leq 0
ΔX≤0)。
3.4 紧密性
一个关键问题是边界是否足够紧密。下一个定理表明,定理1中的上下界是紧的,不能进一步改进,除非获得模型的进一步信息。
3.5 Theorem2 (紧密性)
假设定理1的条件成立。对于满足命题1中定义的 f R S ( X ) = y f^{RS}(\mathbf{X})=y fRS(X)=y和 y B y_B yB的模型 f f f,存在一个模型 f ∗ f_{*} f∗及其相关的平滑模型 g ∗ R S g^{RS}_{*} g∗RS,当 c = y c=y c=y且 c = y B c=y_B c=yB时,满足 g ∗ R S ( X , c ) = g R S ( X , c ) g^{RS}_{*}(\mathbf{X},c)=g^{RS}(\mathbf{X},c) g∗RS(X,c)=gRS(X,c),并且,
min X ′ ∈ S X g ∗ R S ( X ′ , y ) = max ( g ∗ R S ( X , y ) − q X , 0 ) \min_{\mathbf{X}' \in S_{\mathbf{X}}} g_{*}^{RS}(\mathbf{X}',y) =\max(g_{*}^{RS}(\mathbf{X},y)-q_{\mathbf{X}},0) X′∈SXming∗RS(X′,y)=max(g∗RS(X,y)−qX,0)
max X ′ ∈ S X g ∗ R S ( X ′ , y B ) = min ( g ∗ R S ( X , y B ) + q X , 1 ) . \max_{\mathbf{X}' \in S_{\mathbf{X}}} g_{*}^{RS}(\mathbf{X}',y_B) =\min(g_{*}^{RS}(\mathbf{X},y_B)+q_{\mathbf{X}},1). X′∈SXmaxg∗RS(X′,yB)=min(g∗RS(X,yB)+qX,1).
换句话说,如果我们只通过 g R S ( X , y ) g^{RS}(\mathbf{X},y) gRS(X,y)和 g R S ( X , y B ) g^{RS}(\mathbf{X},y_B) gRS(X,yB)的评估来访问 g R S g^{RS} gRS,那么定理1中的边界的紧密性是我们尽最大可能达到的,因为通过可用的信息,我们无法区分定理2中的 g R S g^{RS}_{} gRS和 g ∗ R S g^{RS}_{*} g∗RS。