论文笔记(5.15,文本抗击,defense)--Learning to Discriminate Perturbations for Blocking Adversarial Attacks in

采用对模型添加部件的方式来让模型进行防御
主要用来防御word-level、characters-level的攻击(很没水平的攻击样本)

用三个组件

  1. Perturbation Discrimination Perturbation 嫌疑词检测
    基于上下文语境特征抽取器(BERT等),输入到二分类器,对每个token做一个扰动辨别,找到句子中的嫌疑词
  2. Embedding Estimator 原始词义猜测
    还是利用BERT等,使用嫌疑词掩码,抽取给定窗口上下文特征e
  3. Token-level Recovery 嫌疑词还原
    依据2中抽取的上下文特征e,寻找距离原始输入最近的embedding。利用SWGs(分层索引·小世界图·)加快搜索

self:
评价:
比较初级的defense,嫌疑词还原的方法有待质疑(虽然是按照上下文语义还原,但是控制还原词必须和嫌疑词距离相近,主要是因为paper里面用的攻击样本就是很简单的word-level更改,所以看起来效果好像还不错,个人认为还原能力不高)

借鉴:

  1. character-level的攻击样本或许可以用这种方式还原嫌疑词
  2. 利用BERT
  3. SWGs方式加速语料库的搜索(可不可以用其他方法?这不就相当于攻击样本生成时的替换词查找?)
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值