NLP对抗文本攻击(2)—— TextBugger
文献来源
[1] 李进锋. 面向自然语言处理系统的对抗攻击与防御研究[D].浙江大学,2020.
[2] Jinfeng Li, Shouling Ji, Tianyu Du, Bo Li, Ting Wang. TextBugger: Generating Adversar-
ial Text Against Real-world Applications[C]//Proceedings of the 26th Annual Network and
Distributed Systems Security Symposium
模型流程
五种扰动方式
- insert:在一个词中插入空格
- swap:交换相邻的两个字母
- delete:删除一些字母
- sub-word:k近邻词替换,同义替换
- sub-character:替换字符,如(a-@,l-1,o-0)
白盒攻击算法
词的重要性计算
小结
白盒攻击小结:通过计算梯度,找出重要词,依次对重要词进行5种扰动,选择置信度变化最大的替换。
————————————————————————————————————
黑盒攻击算法
先找重要句子
对重要句子找重要词
然后如白盒攻击
如上
效果
说明
白盒攻击的nlp算法为CNN与LSTM