【论文笔记】SAFER: A Structure-free Approach for Certified Robustness to Adversarial Word Substitutions

黄嘉成

已于 2022-10-20 15:36:16 修改

阅读量527

点赞数 2

分类专栏：论文阅读

于 2022-10-19 21:03:15 首次发布

本文链接：https://blog.csdn.net/qq_33829547/article/details/127412128

版权

文本对抗攻击同义词替换可认证鲁棒平滑分类器随机扰动

关键词由CSDN通过智能技术生成

论文阅读专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 研究目的

针对基于同义词替换的文本对抗攻击，提出一种模型无关的可认证防御方案。

2 问题定义

2.1 基于同义词替换的文本对抗攻击

在文本分类任务中，模型 $f(\mathbf{X})$ 将输入 $\mathbf{X} \in \mathcal{X}$ 映射为标签 $c$ ，其中 $\mathbf{X}=x_1,..,x_L$ 是由 $L$ 个单词组成的句子。本文关注的攻击方式指，攻击者根据同义词表，任意地用同义词替换句子中的单词，以误导模型。

具体来说，对于任意单词 $x$ ，考虑一个预先定义的同义词集合 $S_x$ ，其中包含 $x$ 的同义词和 $x$ 本身。本文假设同义词关系是对称的，即 $x$ 存在于 $x$ 的所有同义词的同义词集合内。同义词集合 $S_x$ 可以基于GLOVE构建。

给定输入句子 $\mathbf{X}=x_1,..,x_L$ ，攻击者可以将 $\mathbf{X}$ 中最多 $R\leq L$ 个单词 $x_i$ 扰动为它们的同义词 $x{'}_{i} \in S_{x_i}$ ，构建出对抗样本 $\mathbf{X'}=x'_1,..,x'_L$ 。：

$S_{\mathbf{X}}:=\{\mathbf{X}':||\mathbf{X}'-\mathbf{X}||_0 \leq R,x'_i\in S_{x_i}, \forall i \},$

其中 $S_{\mathbf{X}}$ 代表对抗样本候选集合。 $||\mathbf{X}'-\mathbf{X}||_0$ 为汉明距离。攻击者的目标是找到 $\mathbf{X}'\in S_{\mathbf{X}}$ 满足 $f(\mathbf{X}') \neq f(\mathbf{X})$ 。

2.2 可认证鲁棒（Certified Robustness）

形式化地，如果模型 $f$ 能够对所有可能的单词替换扰动一致地给出正确的预测，即，

$y=f(\mathbf{X})=f(\mathbf{X}'), \forall \mathbf{X}' \in S_{\mathbf{X}}, \tag1$
其中 $y$ 代表样本 $\mathbf{X}$ 的真实标签。除非有额外的结构信息可用，否则这需要检查 $S_{\mathbf{X}}$ 中的所有候选句子，其数量随 $R$ 呈指数增长。本文主要考虑最具挑战性的 $R = L$ 的情况。

2.3 验证平滑分类器（Certifying Smoothed Classifiers）

本文的思想是用一个更加平滑的模型来替代 $f$ 。平滑分类器 $f^{RS}$ 通过在输入空间引入随机扰动构建，
$f^{RS}=\argmax_{c \in \mathcal{Y}} \mathbb{P}_{\mathbf{Z} \sim Π_{\mathbf{X}}} (f(\mathbf{Z})=c)$

其中， $Π_{\mathbf{X}}$ 是输入空间上的概率分布，它规定了 $\mathbf{X}$ 周围的随机扰动。我们将 $f^{RS}$ 对标签 $c$ 的置信度定义为：
$g^{RS}(\mathbf{X},c):=\mathbb{P}_{\mathbf{Z} \sim Π_{\mathbf{X}}} (f(\mathbf{Z})=c)。$

需要合适地选择扰动分布，以便 $f^{RS}(\mathbf{X})$ 近似 $f(\mathbf{X})$ ，同时也要足够随机，使得 $f^{RS}$ 足够光滑，以便进行鲁棒性验证。

本文将 $Π_{\mathbf{X}}$ 定义为在随机词替换集合上的均匀分布（uniform distribution）。具体而言，设 $P_{x}$ 是词汇表中单词 $x$ 的扰动集，这与同义词集 $S_x$ 不同。本文通过余弦相似度计算GLOVE上的top K最近邻居来构建 $P_{x}$ ，其中 $K$ 是一个超参数，控制扰动集合的大小。

对于句子 $\mathbf{X}=x_1,...,x_L$ ，sentence-level的扰动分布 $Π_{\mathbf{X}}$ 被定义为每个单词等概率地被独立随机地扰动为 $P_{x_i}$ 中的词，即，

$Π_{\mathbf{X}}(\mathbf{Z})= Π_{i=1}^{L}\frac{\mathbb{I}\{z_i \in P_{x_i}\}}{|P_{x_i}|},$
其中， $\mathbf{Z}=z_1,...,z_L$ 是扰动文本， $P_{x_i}|$ 代表 $P_{x_i}$ 的大小。 $\mathbb{I}\{.\}$ 是指示函数。

指示函数的含义是：当输入为True的时候，输出为1，输入为False的时候，输出为0。

请注意，随机扰动 $\mathbf{Z}$ 和对抗候选样本 $\mathbf{X}' \in S_{\mathbf{X}}$ 是不同的。

3 可认证鲁棒

$f^{RS}$ 鲁棒的可认证的条件是，对于任意的 $\mathbf{X}' \in S_{\mathbf{X}}$ ，都有 $y=f^{RS}(\mathbf{X}')$ ，其中 $y$ 是真实标签。满足它的充分条件是，

$\min_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',y) \geq \max_{\mathbf{X}' \in S_{\mathbf{X}}}g^{RS}(\mathbf{X}',c), \forall c \neq y,$

其中， $g^{RS}(\mathbf{X}',y)$ 的下边界大于任意 $\neq y$ 时 $g^{RS}(\mathbf{X}',c)$ 的上边界。因此，关键步骤是计算任意 $\in \mathcal{Y}$ 和 $\mathbf{X}' \in S_{\mathbf{X}}$ ， $g^{RS}(\mathbf{X}',c)$ 的上下边界。

3.1 Theorem 1（可认证的上/下边界）

假设对于每个单词 $x$ 及其同义词 $\in S_{x}$ ，扰动集 $P_x$ 满足 $P_{x}|=|P{x'}|$ 。我们定义，

$q_x=\min_{x' \in S_{x}} |P_x \cap P_{x'}|/|P_{x}|,$

其中， $q_x$ 表示两个不同扰动集之间的重叠。对于一个给定的句子 $\mathbf{X}=x_1,...,x_L$ ，我们根据 $q_x$ 排列所有的单词，使 $q_{{x_i}_1} \leq q_{{x_i}_2} \leq ... \leq q_{{x_i}_L}$ 。可以得到，

$\min_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',c) \geq\max(g^{RS}(\mathbf{X},c)-q_{\mathbf{X}},0)$

$\max_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',c) \leq\min(g^{RS}(\mathbf{X},c)+q_{\mathbf{X}},1).$

其中 $q_{\mathbf{X}}:=1-Π_{j=1}^{R}q_{{x_{i}}_j}$ 。这表示，对于任意 $\in \mathcal{Y}$ ，有 $|g^{RS}(\mathbf{X}',c)-g^{RS}(\mathbf{X},c)|\leq q_{\mathbf{X}}$ 。主要思想是，通过随机平滑，对于任意 $\mathbf{X}' \in S_{\mathbf{X}}$ ， $g^{RS}(\mathbf{X}',c)$ 和 $g^{RS}(\mathbf{X},c)$ 的差距最多是 $q_{\mathbf{X}}$ 。

因此， $g^{RS}(\mathbf{X}',c)$ 的上边界上\下边界为 $g^{RS}(\mathbf{X},c) \pm q_{\mathbf{X}}$

这避免了困难的对抗性优化，而只需要在原始输入上评估 $g^{RS}(\mathbf{X},c)$ 。

Theorem 1 证明

Lemma 1 将 ${X}$ 映射为0或1的全部有界函数定义为 $\mathcal{H}_{[0,1]}$ ，对所有 $\in \mathcal{H_{[0,1]}}$ ，定义 $Π_{{X}}[h]=\mathbb{E}_{Z \sim Π_{{X}}}[h(Z)]$ 。

那么，对于任意 ${X}$ 和任意 $\in \mathcal{Y}$ ，都有

$\min_{{X}' \in Π_{{X}}}g^{RS}({X}',c) \geq \min_{h \in \mathcal{H}_{[0,1]}}\min_{{X}' \in Π_{{X}}}\{Π_{{X}'}[h] \quad s.t. \quadΠ_{{X}}[h]=g^{RS}(X,c) \}:=g^{RS}_{low}(X,c)$
$\max_{{X}' \in Π_{{X}}}g^{RS}({X}',c) \leq \max_{h \in \mathcal{H}_{[0,1]}}\max_{{X}' \in Π_{{X}}}\{Π_{{X}'}[h] \quad s.t. \quadΠ_{{X}}[h]=g^{RS}(X,c) \}:=g^{RS}_{up}(X,c)$

Lemma 1 证明
证明很直接。定义 $h_{0}[X]=\mathbb{I}\{f(X)=c\}$ ，由于
$g^{RS}(X,c) = \mathbb{P}_{Z∼Π_X} (f(Z) = c) = Π_X[h_0].$

因此， $h_0$ 满足优化中的约束，显然
$g^{RS}(X', c) = Π_X' [h_0] ≥ \min \{Π_{X'} [h] \quad s.t. \quad Π_X[h] = g^{RS}(X, c)\}$
在两边取 $\min_{X'} \in S_X$ 得出下界。上界遵循相同的推导。
因此，问题归结为优化问题的推导边界。

数学符号	含义
$X$	输入样本
$Π_X$	输入空间上的概率分布，规定了 $X$ 周围的随机扰动
$g^{RS}(X, c)$	平滑分类器输出样本 $X$ 关于标签 $c$ 的置信度，等价于 $\mathbb{P}_{Z\sim Π_X} (f(Z) = c)$
$h$	任意将输入映射到0或1的函数
$\mathbb{E}_{Z∼Π_X}[h(Z)]$	函数 $h$ 接收输入 $Z$ 产生的输出的期望，简写为 $Π_{X}[h]$

3.2 Proposition1

对于一个句子 $\mathbf{X}$ 及其标签 $y$ ，我们定义，
$y_{B}=\argmax_{c \in \mathcal{Y}, c \neq y} g^{RS}(\mathbf{X}, c).$
然后，在定理1的条件下，我们可以验证，对于任意 $\mathbf{X}' \in S_{\mathbf{X}}$ ，都有 $f(\mathbf{X}')=f(\mathbf{X})=y$ 的条件是，

$\Delta_{\mathbf{X}}=g^{RS}(\mathbf{X},y)-g^{RS}(\mathbf{X},y_{B})-2q_{\mathbf{X}} >0. \tag2$

因此，验证模型是否给出了一致正确的预测，只需检查 $\Delta_{\mathbf{X}}$ 是否为正，这可以很容易地通过蒙特卡罗估计实现。如下图所示：
本文鲁棒性验证的流程

3.3 估计 $g^{RS}(\mathbf{X},c)$ 和 $\Delta_{\mathbf{X}}$

可以通过蒙特卡洛估计法来估计 $g^{RS}(\mathbf{X},c)$ ，即 $\sum^{n}_{i=1} \mathbb{I}\{f(\mathbf{Z}^{(i)}=c)\}/n$ ，其中， $\mathbf{Z}^{(i)}$ 是 $Π_{\mathbf{X}}$ 中独立同分布的样本。此外， $\Delta_{\mathbf{X}}$ 可以相应地近似。
利用浓度不等式，我们可以量化非渐近逼近误差(non-asymptotic approximation error)。这允许我们构建严格的统计过程，以拒绝零假设(null hypothesis)，即，以给定的显著性水平(例如，1%)， $f^{RS}$ 在 $\mathbf{X}$ 处未被证明鲁棒（即 $\Delta_{\mathbf{X}} \leq 0$ ）。

3.4 紧密性

一个关键问题是边界是否足够紧密。下一个定理表明，定理1中的上下界是紧的，不能进一步改进，除非获得模型的进一步信息。

3.5 Theorem2 （紧密性）

假设定理1的条件成立。对于满足命题1中定义的 $f^{RS}(\mathbf{X})=y$ 和 $y_B$ 的模型 $f$ ，存在一个模型 $f_{*}$ 及其相关的平滑模型 $g^{RS}_{*}$ ，当 $c = y$ 且 $c=y_B$ 时，满足 $g^{RS}_{*}(\mathbf{X},c)=g^{RS}(\mathbf{X},c)$ ，并且，

$\min_{\mathbf{X}' \in S_{\mathbf{X}}} g_{*}^{RS}(\mathbf{X}',y) =\max(g_{*}^{RS}(\mathbf{X},y)-q_{\mathbf{X}},0)$

$\max_{\mathbf{X}' \in S_{\mathbf{X}}} g_{*}^{RS}(\mathbf{X}',y_B) =\min(g_{*}^{RS}(\mathbf{X},y_B)+q_{\mathbf{X}},1).$

换句话说，如果我们只通过 $g^{RS}(\mathbf{X},y)$ 和 $g^{RS}(\mathbf{X},y_B)$ 的评估来访问 $g^{RS}$ ，那么定理1中的边界的紧密性是我们尽最大可能达到的，因为通过可用的信息，我们无法区分定理2中的 $g^{RS}_{}$ 和 $g^{RS}_{*}$ 。

黄嘉成

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
3
评论
【论文笔记】SAFER: A Structure-free Approach for Certified Robustness to Adversarial Word Substitutions

论文SAFER: A Structure-free Approach for Certified Robustness to Adversarial Word Substitutions的笔记
复制链接

扫一扫