【论文笔记】SAFER: A Structure-free Approach for Certified Robustness to Adversarial Word Substitutions

1 研究目的

针对基于同义词替换的文本对抗攻击,提出一种模型无关的可认证防御方案。

2 问题定义

2.1 基于同义词替换的文本对抗攻击

在文本分类任务中,模型 f ( X ) f(\mathbf{X}) f(X)将输入 X ∈ X \mathbf{X} \in \mathcal{X} XX映射为标签 c c c,其中 X = x 1 , . . , x L \mathbf{X}=x_1,..,x_L X=x1,..,xL是由 L L L个单词组成的句子。本文关注的攻击方式指,攻击者根据同义词表,任意地用同义词替换句子中的单词,以误导模型。

具体来说,对于任意单词 x x x,考虑一个预先定义的同义词集合 S x S_x Sx,其中包含 x x x的同义词和 x x x本身。本文假设同义词关系是对称的,即 x x x存在于 x x x的所有同义词的同义词集合内。同义词集合 S x S_x Sx可以基于GLOVE构建。

给定输入句子 X = x 1 , . . , x L \mathbf{X}=x_1,..,x_L X=x1,..,xL,攻击者可以将 X \mathbf{X} X中最多 R ≤ L R\leq L RL个单词 x i x_i xi扰动为它们的同义词 x ′ i ∈ S x i x{'}_{i} \in S_{x_i} xiSxi,构建出对抗样本 X ′ = x 1 ′ , . . , x L ′ \mathbf{X'}=x'_1,..,x'_L X=x1,..,xL。:

S X : = { X ′ : ∣ ∣ X ′ − X ∣ ∣ 0 ≤ R , x i ′ ∈ S x i , ∀ i } , S_{\mathbf{X}}:=\{\mathbf{X}':||\mathbf{X}'-\mathbf{X}||_0 \leq R,x'_i\in S_{x_i}, \forall i \}, SX:={X:∣∣XX0R,xiSxi,i},

其中 S X S_{\mathbf{X}} SX代表对抗样本候选集合。 ∣ ∣ X ′ − X ∣ ∣ 0 ||\mathbf{X}'-\mathbf{X}||_0 ∣∣XX0为汉明距离。攻击者的目标是找到 X ′ ∈ S X \mathbf{X}'\in S_{\mathbf{X}} XSX满足 f ( X ′ ) ≠ f ( X ) f(\mathbf{X}') \neq f(\mathbf{X}) f(X)=f(X)

2.2 可认证鲁棒(Certified Robustness)

形式化地,如果模型 f f f能够对所有可能的单词替换扰动一致地给出正确的预测,即,

y = f ( X ) = f ( X ′ ) , ∀ X ′ ∈ S X , (1) y=f(\mathbf{X})=f(\mathbf{X}'), \forall \mathbf{X}' \in S_{\mathbf{X}}, \tag1 y=f(X)=f(X),XSX,(1)
其中 y y y代表样本 X \mathbf{X} X的真实标签。除非有额外的结构信息可用,否则这需要检查 S X S_{\mathbf{X}} SX中的所有候选句子,其数量随 R R R呈指数增长。本文主要考虑最具挑战性的 R = L R=L R=L的情况。

2.3 验证平滑分类器(Certifying Smoothed Classifiers)

本文的思想是用一个更加平滑的模型来替代 f f f。平滑分类器 f R S f^{RS} fRS通过在输入空间引入随机扰动构建,
f R S = arg max ⁡ c ∈ Y P Z ∼ Π X ( f ( Z ) = c ) f^{RS}=\argmax_{c \in \mathcal{Y}} \mathbb{P}_{\mathbf{Z} \sim Π_{\mathbf{X}}} (f(\mathbf{Z})=c) fRS=cYargmaxPZΠX(f(Z)=c)

其中, Π X Π_{\mathbf{X}} ΠX是输入空间上的概率分布,它规定了 X \mathbf{X} X周围的随机扰动。我们将 f R S f^{RS} fRS对标签 c c c的置信度定义为:
g R S ( X , c ) : = P Z ∼ Π X ( f ( Z ) = c ) 。 g^{RS}(\mathbf{X},c):=\mathbb{P}_{\mathbf{Z} \sim Π_{\mathbf{X}}} (f(\mathbf{Z})=c)。 gRS(X,c):=PZΠX(f(Z)=c)

需要合适地选择扰动分布,以便 f R S ( X ) f^{RS}(\mathbf{X}) fRS(X)近似 f ( X ) f(\mathbf{X}) f(X),同时也要足够随机,使得 f R S f^{RS} fRS足够光滑,以便进行鲁棒性验证。

本文将 Π X Π_{\mathbf{X}} ΠX定义为在随机词替换集合上的均匀分布(uniform distribution)。具体而言,设 P x P_{x} Px是词汇表中单词 x x x的扰动集,这与同义词集 S x S_x Sx不同。本文通过余弦相似度计算GLOVE上的top K最近邻居来构建 P x P_{x} Px,其中 K K K是一个超参数,控制扰动集合的大小。

对于句子 X = x 1 , . . . , x L \mathbf{X}=x_1,...,x_L X=x1,...,xL,sentence-level的扰动分布 Π X Π_{\mathbf{X}} ΠX被定义为每个单词等概率地被独立随机地扰动为 P x i P_{x_i} Pxi中的词,即,

Π X ( Z ) = Π i = 1 L I { z i ∈ P x i } ∣ P x i ∣ , Π_{\mathbf{X}}(\mathbf{Z})= Π_{i=1}^{L}\frac{\mathbb{I}\{z_i \in P_{x_i}\}}{|P_{x_i}|}, ΠX(Z)=Πi=1LPxiI{ziPxi},
其中, Z = z 1 , . . . , z L \mathbf{Z}=z_1,...,z_L Z=z1,...,zL是扰动文本, ∣ P x i ∣ |P_{x_i}| Pxi代表 P x i P_{x_i} Pxi的大小。 I { . } \mathbb{I}\{.\} I{.}指示函数

指示函数的含义是:当输入为True的时候,输出为1,输入为False的时候,输出为0。

请注意,随机扰动 Z \mathbf{Z} Z和对抗候选样本 X ′ ∈ S X \mathbf{X}' \in S_{\mathbf{X}} XSX是不同的。

3 可认证鲁棒

f R S f^{RS} fRS鲁棒的可认证的条件是,对于任意的 X ′ ∈ S X \mathbf{X}' \in S_{\mathbf{X}} XSX,都有 y = f R S ( X ′ ) y=f^{RS}(\mathbf{X}') y=fRS(X),其中 y y y是真实标签。满足它的充分条件是,

min ⁡ X ′ ∈ S X g R S ( X ′ , y ) ≥ max ⁡ X ′ ∈ S X g R S ( X ′ , c ) , ∀ c ≠ y , \min_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',y) \geq \max_{\mathbf{X}' \in S_{\mathbf{X}}}g^{RS}(\mathbf{X}',c), \forall c \neq y, XSXmingRS(X,y)XSXmaxgRS(X,c),c=y,

其中, g R S ( X ′ , y ) g^{RS}(\mathbf{X}',y) gRS(X,y)的下边界大于任意 c ≠ y c \neq y c=y g R S ( X ′ , c ) g^{RS}(\mathbf{X}',c) gRS(X,c)的上边界。因此,关键步骤是计算任意 c ∈ Y c \in \mathcal{Y} cY X ′ ∈ S X \mathbf{X}' \in S_{\mathbf{X}} XSX g R S ( X ′ , c ) g^{RS}(\mathbf{X}',c) gRS(X,c)的上下边界。

3.1 Theorem 1(可认证的上/下边界)

假设对于每个单词 x x x及其同义词 x ′ ∈ S x x' \in S_{x} xSx,扰动集 P x P_x Px满足 ∣ P x ∣ = ∣ P x ′ ∣ |P_{x}|=|P{x'}| Px=Px。我们定义,

q x = min ⁡ x ′ ∈ S x ∣ P x ∩ P x ′ ∣ / ∣ P x ∣ , q_x=\min_{x' \in S_{x}} |P_x \cap P_{x'}|/|P_{x}|, qx=xSxminPxPx∣/∣Px,

其中, q x q_x qx表示两个不同扰动集之间的重叠。对于一个给定的句子 X = x 1 , . . . , x L \mathbf{X}=x_1,...,x_L X=x1,...,xL,我们根据 q x q_x qx排列所有的单词,使 q x i 1 ≤ q x i 2 ≤ . . . ≤ q x i L q_{{x_i}_1} \leq q_{{x_i}_2} \leq ... \leq q_{{x_i}_L} qxi1qxi2...qxiL。可以得到,

min ⁡ X ′ ∈ S X g R S ( X ′ , c ) ≥ max ⁡ ( g R S ( X , c ) − q X , 0 ) \min_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',c) \geq\max(g^{RS}(\mathbf{X},c)-q_{\mathbf{X}},0) XSXmingRS(X,c)max(gRS(X,c)qX,0)

max ⁡ X ′ ∈ S X g R S ( X ′ , c ) ≤ min ⁡ ( g R S ( X , c ) + q X , 1 ) . \max_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',c) \leq\min(g^{RS}(\mathbf{X},c)+q_{\mathbf{X}},1). XSXmaxgRS(X,c)min(gRS(X,c)+qX,1).

其中 q X : = 1 − Π j = 1 R q x i j q_{\mathbf{X}}:=1-Π_{j=1}^{R}q_{{x_{i}}_j} qX:=1Πj=1Rqxij。这表示,对于任意 c ∈ Y c \in \mathcal{Y} cY,有 ∣ g R S ( X ′ , c ) − g R S ( X , c ) ∣ ≤ q X |g^{RS}(\mathbf{X}',c)-g^{RS}(\mathbf{X},c)|\leq q_{\mathbf{X}} gRS(X,c)gRS(X,c)qX。主要思想是,通过随机平滑,对于任意 X ′ ∈ S X \mathbf{X}' \in S_{\mathbf{X}} XSX g R S ( X ′ , c ) g^{RS}(\mathbf{X}',c) gRS(X,c) g R S ( X , c ) g^{RS}(\mathbf{X},c) gRS(X,c)的差距最多是 q X q_{\mathbf{X}} qX

因此, g R S ( X ′ , c ) g^{RS}(\mathbf{X}',c) gRS(X,c)的上边界上\下边界为 g R S ( X , c ) ± q X g^{RS}(\mathbf{X},c) \pm q_{\mathbf{X}} gRS(X,c)±qX

这避免了困难的对抗性优化,而只需要在原始输入上评估 g R S ( X , c ) g^{RS}(\mathbf{X},c) gRS(X,c)

Theorem 1 证明

Lemma 1 X {X} X映射为0或1的全部有界函数定义为 H [ 0 , 1 ] \mathcal{H}_{[0,1]} H[0,1],对所有 h ∈ H [ 0 , 1 ] h \in \mathcal{H_{[0,1]}} hH[0,1],定义 Π X [ h ] = E Z ∼ Π X [ h ( Z ) ] Π_{{X}}[h]=\mathbb{E}_{Z \sim Π_{{X}}}[h(Z)] ΠX[h]=EZΠX[h(Z)]

那么,对于任意 X {X} X和任意 x ∈ Y x \in \mathcal{Y} xY,都有

min ⁡ X ′ ∈ Π X g R S ( X ′ , c ) ≥ min ⁡ h ∈ H [ 0 , 1 ] min ⁡ X ′ ∈ Π X { Π X ′ [ h ] s . t . Π X [ h ] = g R S ( X , c ) } : = g l o w R S ( X , c ) \min_{{X}' \in Π_{{X}}}g^{RS}({X}',c) \geq \min_{h \in \mathcal{H}_{[0,1]}}\min_{{X}' \in Π_{{X}}}\{Π_{{X}'}[h] \quad s.t. \quadΠ_{{X}}[h]=g^{RS}(X,c) \}:=g^{RS}_{low}(X,c) XΠXmingRS(X,c)hH[0,1]minXΠXmin{ΠX[h]s.t.ΠX[h]=gRS(X,c)}:=glowRS(X,c)
max ⁡ X ′ ∈ Π X g R S ( X ′ , c ) ≤ max ⁡ h ∈ H [ 0 , 1 ] max ⁡ X ′ ∈ Π X { Π X ′ [ h ] s . t . Π X [ h ] = g R S ( X , c ) } : = g u p R S ( X , c ) \max_{{X}' \in Π_{{X}}}g^{RS}({X}',c) \leq \max_{h \in \mathcal{H}_{[0,1]}}\max_{{X}' \in Π_{{X}}}\{Π_{{X}'}[h] \quad s.t. \quadΠ_{{X}}[h]=g^{RS}(X,c) \}:=g^{RS}_{up}(X,c) XΠXmaxgRS(X,c)hH[0,1]maxXΠXmax{ΠX[h]s.t.ΠX[h]=gRS(X,c)}:=gupRS(X,c)

Lemma 1 证明
证明很直接。定义 h 0 [ X ] = I { f ( X ) = c } h_{0}[X]=\mathbb{I}\{f(X)=c\} h0[X]=I{f(X)=c},由于
g R S ( X , c ) = P Z ∼ Π X ( f ( Z ) = c ) = Π X [ h 0 ] . g^{RS}(X,c) = \mathbb{P}_{Z∼Π_X} (f(Z) = c) = Π_X[h_0]. gRS(X,c)=PZΠX(f(Z)=c)=ΠX[h0].

因此, h 0 h_0 h0满足优化中的约束,显然
g R S ( X ′ , c ) = Π X ′ [ h 0 ] ≥ min ⁡ { Π X ′ [ h ] s . t . Π X [ h ] = g R S ( X , c ) } g^{RS}(X', c) = Π_X' [h_0] ≥ \min \{Π_{X'} [h] \quad s.t. \quad Π_X[h] = g^{RS}(X, c)\} gRS(X,c)=ΠX[h0]min{ΠX[h]s.t.ΠX[h]=gRS(X,c)}
在两边取 min ⁡ X ′ ∈ S X \min_{X'} \in S_X minXSX得出下界。上界遵循相同的推导。
因此,问题归结为优化问题的推导边界。

数学符号含义
X X X输入样本
Π X Π_X ΠX输入空间上的概率分布,规定了 X X X周围的随机扰动
g R S ( X , c ) g^{RS}(X, c) gRS(X,c)平滑分类器输出样本 X X X关于标签 c c c的置信度,等价于 P Z ∼ Π X ( f ( Z ) = c ) \mathbb{P}_{Z\sim Π_X} (f(Z) = c) PZΠX(f(Z)=c)
h h h任意将输入映射到0或1的函数
E Z ∼ Π X [ h ( Z ) ] \mathbb{E}_{Z∼Π_X}[h(Z)] EZΠX[h(Z)]函数 h h h接收输入 Z Z Z产生的输出的期望,简写为 Π X [ h ] Π_{X}[h] ΠX[h]

3.2 Proposition1

对于一个句子 X \mathbf{X} X及其标签 y y y,我们定义,
y B = arg max ⁡ c ∈ Y , c ≠ y g R S ( X , c ) . y_{B}=\argmax_{c \in \mathcal{Y}, c \neq y} g^{RS}(\mathbf{X}, c). yB=cY,c=yargmaxgRS(X,c).
然后,在定理1的条件下,我们可以验证,对于任意 X ′ ∈ S X \mathbf{X}' \in S_{\mathbf{X}} XSX,都有 f ( X ′ ) = f ( X ) = y f(\mathbf{X}')=f(\mathbf{X})=y f(X)=f(X)=y的条件是,

Δ X = g R S ( X , y ) − g R S ( X , y B ) − 2 q X > 0. (2) \Delta_{\mathbf{X}}=g^{RS}(\mathbf{X},y)-g^{RS}(\mathbf{X},y_{B})-2q_{\mathbf{X}} >0. \tag2 ΔX=gRS(X,y)gRS(X,yB)2qX>0.(2)

因此,验证模型是否给出了一致正确的预测,只需检查 Δ X \Delta_{\mathbf{X}} ΔX是否为正,这可以很容易地通过蒙特卡罗估计实现。如下图所示:
本文鲁棒性验证的流程

3.3 估计 g R S ( X , c ) g^{RS}(\mathbf{X},c) gRS(X,c) Δ X \Delta_{\mathbf{X}} ΔX

可以通过蒙特卡洛估计法来估计 g R S ( X , c ) g^{RS}(\mathbf{X},c) gRS(X,c),即 ∑ i = 1 n I { f ( Z ( i ) = c ) } / n \sum^{n}_{i=1} \mathbb{I}\{f(\mathbf{Z}^{(i)}=c)\}/n i=1nI{f(Z(i)=c)}/n,其中, Z ( i ) \mathbf{Z}^{(i)} Z(i) Π X Π_{\mathbf{X}} ΠX中独立同分布的样本。此外, Δ X \Delta_{\mathbf{X}} ΔX可以相应地近似。
利用浓度不等式,我们可以量化非渐近逼近误差(non-asymptotic approximation error)。这允许我们构建严格的统计过程,以拒绝零假设(null hypothesis),即,以给定的显著性水平(例如,1%), f R S f^{RS} fRS X \mathbf{X} X处未被证明鲁棒(即 Δ X ≤ 0 \Delta_{\mathbf{X}} \leq 0 ΔX0)。

3.4 紧密性

一个关键问题是边界是否足够紧密。下一个定理表明,定理1中的上下界是紧的,不能进一步改进,除非获得模型的进一步信息。

3.5 Theorem2 (紧密性)

假设定理1的条件成立。对于满足命题1中定义的 f R S ( X ) = y f^{RS}(\mathbf{X})=y fRS(X)=y y B y_B yB的模型 f f f,存在一个模型 f ∗ f_{*} f及其相关的平滑模型 g ∗ R S g^{RS}_{*} gRS,当 c = y c=y c=y c = y B c=y_B c=yB时,满足 g ∗ R S ( X , c ) = g R S ( X , c ) g^{RS}_{*}(\mathbf{X},c)=g^{RS}(\mathbf{X},c) gRS(X,c)=gRS(X,c),并且,

min ⁡ X ′ ∈ S X g ∗ R S ( X ′ , y ) = max ⁡ ( g ∗ R S ( X , y ) − q X , 0 ) \min_{\mathbf{X}' \in S_{\mathbf{X}}} g_{*}^{RS}(\mathbf{X}',y) =\max(g_{*}^{RS}(\mathbf{X},y)-q_{\mathbf{X}},0) XSXmingRS(X,y)=max(gRS(X,y)qX,0)

max ⁡ X ′ ∈ S X g ∗ R S ( X ′ , y B ) = min ⁡ ( g ∗ R S ( X , y B ) + q X , 1 ) . \max_{\mathbf{X}' \in S_{\mathbf{X}}} g_{*}^{RS}(\mathbf{X}',y_B) =\min(g_{*}^{RS}(\mathbf{X},y_B)+q_{\mathbf{X}},1). XSXmaxgRS(X,yB)=min(gRS(X,yB)+qX,1).

换句话说,如果我们只通过 g R S ( X , y ) g^{RS}(\mathbf{X},y) gRS(X,y) g R S ( X , y B ) g^{RS}(\mathbf{X},y_B) gRS(X,yB)的评估来访问 g R S g^{RS} gRS,那么定理1中的边界的紧密性是我们尽最大可能达到的,因为通过可用的信息,我们无法区分定理2中的 g R S g^{RS}_{} gRS g ∗ R S g^{RS}_{*} gRS

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黄嘉成

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值