Adversarial Attack

最新推荐文章于 2022-10-22 12:00:26 发布

qq_35854725

最新推荐文章于 2022-10-22 12:00:26 发布

阅读量510

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35854725/article/details/108717028

版权

选题：文本对抗攻击（感觉有点偏，不知道徐老师会不会认）
背景介绍：对抗攻击是指对输入的测试样本故意添加一些人无法察觉的细微的干扰，导致模型以高置信度给出一个错误的输出，从而暴露受害模型的弱点，有助于提高模型的鲁棒性和可解释性，从某种意义上来说，对抗攻击就是一种测试模型的方法。
以下图为例简单阐述对抗攻击的做法：
在这里插入图片描述
在上图中，原本的图片分类模型对于上图的判断是panda，但当人为的给样本添加一个微小的扰动之后，模型会给出错误的分类结果。

而在NLP领域，因为word embedding并不是连续的，如果直接给样本添加扰动的话，生成的adversarial sample并不是一个人类日常使用的句子，所以通常情况下会使用近义词词典来替换样本中的某个单词，以保证生成的对抗样本符合一下三点要求：
1、人类可以正确adversarial sample识别；
2、adversarial sample 和 original sample 语义相近；
3、adversarial sample应该是人类语言并且符合语法规则；
参考文献：文本对抗攻击和防御必读清单

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。