论文笔记5.11--文本对抗攻击(review)

针对文本做一些扰动攻击, 不同于图像的连续数据,文本的数据是离散的(例如embedding),因此扰动会对网络的判断造成影响,但是对人来说个别单词的谬误并不会影响到整个句子得理解。
相较于视觉,文本的对抗更加困难。像素上的扰动会让模型误判,但是对人的判断无法造成明显影响,这就足以说明DNN的某些地方的鲁棒性差;然而文本的扰动则是词法句法的错误甚至缺失,不只模型连人也会有明显的察觉(但是人有储备知识和推理理解的能力,可以纠错)。
有研究表明,DNN的线性性质是导致模型误判的原因,另外还有输入太过干净

对于攻击者:

目标

找到一个输入x’使得 argmin |x-x’| ,同时f(x‘)!=f(x)
也就是构造一个理论上不会让人和ideal模型产生错误判断,却能够让布鲁帮的的干扰输入
(argmin |x-x’|是为了让"人"察觉不出来,察觉出来了也不会影响分辨;f(x‘)!=f(x)是为了让非鲁棒模性受到影响)

分类

信息来源:

  • 白箱模型:一般而言需要计算输入的表示的梯度较为困难

  • 黑箱模型:普遍采用

输出目标:

  • 无目标攻击:只在乎输出是错的就可,黑箱
  • 目标攻击:模型被攻击之后的输出是按照预先设定的,白箱更加困难

输入级别:

  • character
  • word
  • sentence/chunk

task:

  • high level language understanding
  • low level language processing 较少

攻击方法

L-BFGS、FGSM…

评估方法

改述攻击,难点在于评判|x-x’|(各种距离的定义)

总览

基于白箱理论
在这里插入图片描述
基于黑箱理论
在这里插入图片描述
基于交叉模型
在这里插入图片描述

对于防御者

目标

利用adversarial examples将模型变得更加鲁棒,泛化鲁棒

  • Adversarial Training:攻击样本喂给模型训练
    ——Data Augmentation
    ——Model Regularization
    ——RobustOptimization

  • Distillation:不同温度蒸馏

指标

  • Perceivability:对于一些情感依赖强的任务,添加扰动会产生更大的影响。如何保证ideal的模型不受到这种剧烈的影响,把控一个度。(保证不改变原始语义语法,同时保证对非ideal模型的攻击效果)
  • Transferability:攻击方法的泛化能力。换种attack方法模型的鲁棒性又减弱了,防御的泛化缺少工作

其他问题

  • 自动化
  • 其他模型架构:生成模型的文本抗击空白,很难
  • 攻击效率和效果:一次性攻击和迭代攻击

参考:
Adversarial Attacks on Deep-learning Models in Natural Language Processing: A Survey
WEI
analysis Methods in Neural Language Processing: A Survey
Towards a Robust Deep Neural Network in Texts: A Survey

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值