论文笔记5.11--文本对抗攻击（review）

最新推荐文章于 2021-09-30 12:25:27 发布

Reza.

最新推荐文章于 2021-09-30 12:25:27 发布

阅读量603

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/weixin_43301333/article/details/106061204

版权

论文笔记专栏收录该内容

29 篇文章 5 订阅

订阅专栏

针对文本做一些扰动攻击，不同于图像的连续数据，文本的数据是离散的（例如embedding），因此扰动会对网络的判断造成影响，但是对人来说个别单词的谬误并不会影响到整个句子得理解。
相较于视觉，文本的对抗更加困难。像素上的扰动会让模型误判，但是对人的判断无法造成明显影响，这就足以说明DNN的某些地方的鲁棒性差；然而文本的扰动则是词法句法的错误甚至缺失，不只模型连人也会有明显的察觉（但是人有储备知识和推理理解的能力，可以纠错）。
有研究表明，DNN的线性性质是导致模型误判的原因，另外还有输入太过干净

对于攻击者：

目标

找到一个输入x’使得 argmin |x-x’| ,同时f(x‘)！=f(x)
也就是构造一个理论上不会让人和ideal模型产生错误判断，却能够让布鲁帮的的干扰输入
（argmin |x-x’|是为了让"人"察觉不出来，察觉出来了也不会影响分辨；f(x‘)！=f(x)是为了让非鲁棒模性受到影响）

攻击方法

L-BFGS、FGSM…

评估方法

改述攻击，难点在于评判|x-x’|（各种距离的定义）

总览

基于白箱理论：
在这里插入图片描述
基于黑箱理论：

基于交叉模型：

对于防御者

目标

利用adversarial examples将模型变得更加鲁棒，泛化鲁棒

Adversarial Training：攻击样本喂给模型训练
——Data Augmentation
——Model Regularization
——RobustOptimization
Distillation：不同温度蒸馏

指标

Perceivability：对于一些情感依赖强的任务，添加扰动会产生更大的影响。如何保证ideal的模型不受到这种剧烈的影响，把控一个度。（保证不改变原始语义语法，同时保证对非ideal模型的攻击效果）
Transferability：攻击方法的泛化能力。换种attack方法模型的鲁棒性又减弱了，防御的泛化缺少工作

其他问题

自动化
其他模型架构：生成模型的文本抗击空白，很难
攻击效率和效果：一次性攻击和迭代攻击

参考：
Adversarial Attacks on Deep-learning Models in Natural Language Processing: A Survey
WEI
analysis Methods in Neural Language Processing: A Survey
Towards a Robust Deep Neural Network in Texts: A Survey

Reza.

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文笔记5.11--文本对抗攻击（review）

针对文本做一些扰动攻击，不同于图像的连续数据，文本的数据是离散的（例如embedding），因此扰动会对网络的判断造成影响，但是对人来说个别单词的谬误并不会影响到整个句子得理解。相较于视觉，文本的对抗更加困难。像素上的扰动会让模型误判，但是对人的判断无法造成明显影响，这就足以说明DNN的某些地方的鲁棒性差；然而文本的扰动则是词法句法的错误甚至缺失，不只模型连人也会有明显的察觉（但是人有储备知识和推理理解的能力，可以纠错）。有研究表明，DNN的线性性质是导致模型误判的原因，另外还有输入太过干净对于攻击
复制链接

扫一扫

专栏目录