NLP对抗文本攻击分类

NLP对抗文本攻击(1)——攻击分类



文献来源

[1] 李进锋. 面向自然语言处理系统的对抗攻击与防御研究[D].浙江大学,2020.

白盒攻击

基于梯度的攻击

goodfellow提出经典的FGSM(快速梯度下降法)算法,这些算法效率高,但是假设太强,在现实中不实用,无法保证对抗样本的质量,可用性差。

黑盒攻击

基于置信度的攻击

基于置信度的攻击:寻找对分类影响高的点,依次添加扰动,Gao等人提出的DeepWordBug 1模型中,以下式计算每个词的重要性:
在这里插入图片描述
缺点:长文本计算THS和TTS耗时长;随机扰动导致可读性差。

基于迁移性的攻击

该攻击方法首先基于与目标攻击模型的训练数据同分布的数据训练一个源文本分类模型。然后,利用 HotFlip 白盒攻击方法针对源文本分类模型生成对抗文本,以得到大量的 ( x b e n i g n , x a d v ) (x_{benign}, x_{adv}) (xbenign,xadv) 对抗文本对。接着,基于大量的对抗文本数据对训练一个“攻击者”神经网络以模拟 HotFlip 攻击方法的攻击过程。最后,利用攻击者网络直接生成对抗文本并基于其迁移性对目标黑盒模型进行对抗攻击.
缺点:攻击者必须能获取目标模型的训练数据或者能获取与该训练数据同分布的数据,成功率不高。

基于模型决策的攻击

利用蒸馏模型提取梯度,通过蒸馏模型识别关键词,对关键词添加扰动。

总结

攻击强度分类


  1. Gao J, Lanchantin J, Soffa M L, et al. Black-box generation of adversarial text sequences to evade deep learning classifiers 2018 IEEE Security and Privacy Workshops (SPW).2018: 50-56. ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值