论文笔记：Learning to Discriminator Perturbations for Blocking Adversarial Attacks in Text Classification

最新推荐文章于 2024-06-21 20:31:15 发布

Oosehun

最新推荐文章于 2024-06-21 20:31:15 发布

阅读量518

点赞数

分类专栏：论文笔记

原文链接：https://arxiv.org/abs/1909.03084v1

版权

论文笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文笔记：Learning to Discriminator Perturbations for Blocking Adversarial Attacks in Text Classification（在文本分类中学习辨别扰动阻止对抗攻击）

文章简要介绍

1.出处：EMNLP 2019

2.解决的问题：可以用于任何NLP任务，在不修改模型结构、训练过程的情况下，对字符级、词级的对抗攻击进行防御

3.思路：利用BERT，用一个扰动判别器识别文本中的token是否被扰动，再用嵌入估计器根据上下文恢复被扰动token的词嵌入，用KNN搜索选择替换的token。

引言

在这篇文章中，提出了Learning to Discriminate Perturbations (DISP)这个框架，来防御NLP任务中的对抗攻击。这种防御框架不修改模型结构以及训练过程。DISP包含三个要素：扰动鉴别器，嵌入估计器，分层导航小世界图。

简单操作流程：一个被扰动的训练数据，首先用一个扰动鉴别器识别出被扰动的token，并放到集合C中。对于集合C中每个被扰动的token，用嵌入估计器找一个嵌入向量来表示它的语义。**嵌入估计器是用token-embedding数据集训练得来的。**最后，用层次分类法进行有效的KNN搜索，对每个嵌入向量找到合适的替换token。

主要贡献：

1.第一篇不用retrain模型的NLP对抗攻击防御

2.提出了一个新的框架：DISP，在两个benchmark数据集上的防御性能高于其他基线方法。

DISP框架详细介绍

扰动：一个token中字符的删除或插入，一个token的同义词替换等。

DISP框架图如下所示：

在这里插入图片描述

DISP流程概述：在训练阶段，在干净的训练集D上训练扰动判别器，训练集D是原始语料库的一部分。 在预测阶段，对于测试数据中的每一个token，用扰动判别器判断这个token是否被扰动。对于每个可能被扰动的token，嵌入估计器生成一个近似的嵌入向量，然后在嵌入空间中找到和这个近似向量最近的向量，用对应的token来替代被扰动的token。最后，被恢复的测试数据可以用于预测。需要注意的是，这里的预测模型可以是任何NLP模型。DISP是一个防御文本对抗攻击的通用框架，对于判别器和估计器的模型选择也是灵活的。

Perturbation Discriminator扰动鉴别器

在这里插入图片描述

$对于输入x_a中的t_i,基于它的相邻token来判断t_i是否受到扰动。在这里用基于上下文表示的模型（BERT）实现。$

$输入的每个token,即t_i,先转换成嵌入向量E_i后，经过上下文表示编码器转换成d维上下文表示向量{T_i}^D$

将生成的上下文表示向量经过一个二元逻辑分类器，判别对应的token是否被扰动，公式如下：
$r_i=arg\,\max_{c}{y_i}^C=arg\,\max_{c}(\omega_c\cdot{T_i}^D+b_c)$

$扰动鉴别器会生成一个可能被扰动的token的集合R，R={t_i|r_i=1}$

用嵌入估计进行有效的token恢复

假设：用一个与原始单词有相似含义的单词替换被扰动的词，这种做法可以让模型做出正确的预测。

DISP首先用基于上下文token的嵌入估计器为潜在扰动预测用于恢复的token的嵌入。之后，在token–embedding语料库中用KNN搜索适当的恢复令牌。

嵌入估计器Embedding Estimator

在这里插入图片描述

用基于上下文的语言模型实现。如上图所示，对每个token $t_i$ ，转换成对应的嵌入向量 ${T_i}^G$ 后，作为嵌入估计器的输入。对于每个潜在扰动 $t_i\in$ R，当选择窗口大小为 $\omega$ 的时候，选择2 $\omega$ 的相邻token作为上下文来估计近似嵌入向量。详细的说，就是当token $t_i$ 用【MASK】替代来表示这里是被扰动的token，从 $t_i-w$ 到 $t_i+w$ 的 $2 w + 1$ 个token作为BERT的输入。
在这里插入图片描述

有效的token-level恢复

对于被扰动的文本 $X_a$ 用近似嵌入对应的token来进行恢复。一个token–embedding语料库，先在嵌入空间中找到和估计的近似嵌入邻近的嵌入向量，然后转换成对应的token，用这个找到的token 进行替换。
为了加速搜索过程，这里使用了分层导航小世界图（hierarchical navigable small world graphs, SWGS)进行快速近似KNN搜索。SWGS基于不同嵌入向量之间的相似性，将嵌入转换成一组SWGS。

算法如下所示：

学习&优化

为了得到鲁棒性较好的判别器，在每个training epoch中随机采样字符级和词级的对抗样本。损失函数优化使用交叉熵损失函数。判别器在分类时经过二元逻辑回归后，得到对应的概率，后接softmax函数。
训练嵌入估计器的过程类似于BERT的masked language model预训练任务。不同之处在于，masked language model是为了优化生成相同原始token的可能性，嵌入估计器是为了减少估计的嵌入向量和原始token的嵌入向量之间的距离。为了学习嵌入估计器，应用一个 $(2\omega+1)$ 的滑动窗口来枚举 $(2\omega+1)$ -gram训练数据。

实验

1.数据集：SST-2，IMDB

2.攻击生成：3种字符级攻击和2种词级攻击
字符级攻击：插入、删除、交换。交换是翻转两个相邻的字符。
词级攻击：random，embed。random：随机选择一个词去替换目标词。embed：在词嵌入空间中，找到和目标词邻近的top_10个词进行替换。

为了获得有效的对抗样本。对每个测试文本，通过攻击生成50个对抗样本。从这50个对抗样本中，选取可以改变模型预测结果的样本，然后从中抽取一个样本。如果一个测试样本的50个对抗样本都不能让模型预测出错，选择这50个中在原始类别下概率最低的那个样本。

3.基线模型 :BERT
为了评估DISP的性能，用一下几种方法作为baseline:(1)对抗数据增强（ADA，Adversarial Data Augmentation)：用对抗样本增加训练数据的多样性（2）对抗训练：在每个training epoch中添加对抗样本（3）拼写检查：作为扰动判别器和防御字符级攻击的基线算法

Note：对抗数据增强和对抗训练都需要用增强数据重新训练BERT，DISP和拼写检查在文本进入模型前进行修改。

4.评估指标：precision，recall，F1分数
True Positive（TP)：将正预测为正
True Negativa(TN)：将正预测为负
False Positive(FP)：将负类预测为正类
False Negative(FN)：将负类预测为负类

$\frac {TP}{TP+FP}$

$\frac {TP}{TP+FN}$

$F_1 = \frac {2*Pre*Rec}{Pre+Rec}$ = $\frac {2TP}{2TP+FP+FN}$

5.参数设置：在嵌入估计器那里，窗口参数 $\omega$ 设置为2。基线模型选择 $BERT_{base}$ ，transformer的块数为12，self-attention的头为12。