论文笔记（5.15，文本抗击，defense）--Learning to Discriminate Perturbations for Blocking Adversarial Attacks in

最新推荐文章于 2022-06-28 20:52:12 发布

Reza.

最新推荐文章于 2022-06-28 20:52:12 发布

阅读量398

点赞数 1

分类专栏：论文笔记

本文链接：https://blog.csdn.net/weixin_43301333/article/details/106139766

版权

29 篇文章 5 订阅

订阅专栏

采用对模型添加部件的方式来让模型进行防御
主要用来防御word-level、characters-level的攻击（很没水平的攻击样本）

用三个组件：

Perturbation Discrimination Perturbation 嫌疑词检测
基于上下文语境特征抽取器（BERT等），输入到二分类器，对每个token做一个扰动辨别，找到句子中的嫌疑词
Embedding Estimator 原始词义猜测
还是利用BERT等，使用嫌疑词掩码，抽取给定窗口上下文特征e
Token-level Recovery 嫌疑词还原
依据2中抽取的上下文特征e，寻找距离原始输入最近的embedding。利用SWGs(分层索引·小世界图·)加快搜索

self：
评价：
比较初级的defense，嫌疑词还原的方法有待质疑（虽然是按照上下文语义还原，但是控制还原词必须和嫌疑词距离相近，主要是因为paper里面用的攻击样本就是很简单的word-level更改，所以看起来效果好像还不错，个人认为还原能力不高）

借鉴：

关注