针对文本做一些扰动攻击, 不同于图像的连续数据,文本的数据是离散的(例如embedding),因此扰动会对网络的判断造成影响,但是对人来说个别单词的谬误并不会影响到整个句子得理解。
相较于视觉,文本的对抗更加困难。像素上的扰动会让模型误判,但是对人的判断无法造成明显影响,这就足以说明DNN的某些地方的鲁棒性差;然而文本的扰动则是词法句法的错误甚至缺失,不只模型连人也会有明显的察觉(但是人有储备知识和推理理解的能力,可以纠错)。
有研究表明,DNN的线性性质是导致模型误判的原因,另外还有输入太过干净
对于攻击者:
目标
找到一个输入x’使得 argmin |x-x’| ,同时f(x‘)!=f(x)
也就是构造一个理论上不会让人和ideal模型产生错误判断,却能够让布鲁帮的的干扰输入
(argmin |x-x’|是为了让"人"察觉不出来,察觉出来了也不会影响分辨;f(x‘)!=f(x)是为了让非鲁棒模性受到影响)
分类
信息来源:
-
白箱模型:一般而言需要计算输入的表示的梯度较为困难
-
黑箱模型:普遍采用
输出目标:
- 无目标攻击:只在乎输出是错的就可,黑箱
- 目标攻击:模型被攻击之后的输出是按照预先设定的,白箱更加困难
输入级别:
- character
- word
- sentence/chunk
task:
- high level language understanding
- low level language processing 较少
攻击方法
L-BFGS、FGSM…
评估方法
改述攻击,难点在于评判|x-x’|(各种距离的定义)
总览
基于白箱理论:
基于黑箱理论:
基于交叉模型:
对于防御者
目标
利用adversarial examples将模型变得更加鲁棒,泛化鲁棒
-
Adversarial Training:攻击样本喂给模型训练
——Data Augmentation
——Model Regularization
——RobustOptimization -
Distillation:不同温度蒸馏
指标
- Perceivability:对于一些情感依赖强的任务,添加扰动会产生更大的影响。如何保证ideal的模型不受到这种剧烈的影响,把控一个度。(保证不改变原始语义语法,同时保证对非ideal模型的攻击效果)
- Transferability:攻击方法的泛化能力。换种attack方法模型的鲁棒性又减弱了,防御的泛化缺少工作
其他问题
- 自动化
- 其他模型架构:生成模型的文本抗击空白,很难
- 攻击效率和效果:一次性攻击和迭代攻击
参考:
Adversarial Attacks on Deep-learning Models in Natural Language Processing: A Survey
WEI
analysis Methods in Neural Language Processing: A Survey
Towards a Robust Deep Neural Network in Texts: A Survey