【学习】adversarial attack、evasion attacks


动机

你训练了很多神经网络。我们试图在现实世界中部署神经网络。网络对于为愚弄它们而构建的输入是否具有鲁棒性?对于垃圾邮件分类、恶意软件检测、网络入侵检测等非常有用。
在这里插入图片描述

一、adversarial attack

分类:
在这里插入图片描述
在这里插入图片描述
计算两种攻击的Loss
在这里插入图片描述
用以下来计算两张图片的距离:下面两个方法都要小。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

sign函数里,如果值大于0为1,小于0为-1.
在这里插入图片描述
在之前的攻击中,我们知道网络参数,这被称为白盒攻击。您无法在大多数在线API中获取模型参数。如果我们不发布模型,我们安全吗?不会,因为黑盒攻击是可能的。
如果你有目标网络的训练数据,自己训练一个代理网络,使用代理网络生成被攻击的对象
在这里插入图片描述
黑箱攻击容易成功
在这里插入图片描述
改变一个像素:
在这里插入图片描述
同一个地方的噪声能够攻击很多图片
在这里插入图片描述
语音和NLP上的攻击:
在这里插入图片描述真实世界的攻击:
在这里插入图片描述

攻击者需要找到超越单一图像的扰动。
摄像机不可能准确捕捉到扰动中相邻像素之间的极端差异。
希望制作主要由打印机可再现的颜色组成的扰动。
在这里插入图片描述
在这里插入图片描述
寄生攻击方法:
在这里插入图片描述
训练的时候攻击:
在这里插入图片描述

防御

主动防御和被动防御
在这里插入图片描述
图片做点模糊化就行
在这里插入图片描述
压缩、generator
在这里插入图片描述
模糊化会被很容易破解,那假如随机性就好了(任意改变)
在这里插入图片描述
找漏洞填补:
在这里插入图片描述
问题:不一定能挡住新攻击,需要很大的运算资源

二、evasion attacks

一个有效的对抗样本应该满足什么?
与袭击目标高度相关
原始样本和扰动样本之间的重叠
扰动样本的语法性
语义保持

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
流利程度由预先训练的语言模型的困惑程度来评分(PPL越小出现情况越高)
在这里插入图片描述
转换样本和原始样本之间的语义相似性
交换单词嵌入和原始单词嵌入的距离
如何选择这个门限?
在这里插入图片描述
在这里插入图片描述

三、搜索方法

在这里插入图片描述
规避攻击:搜索方法
找到实现目标和满足约束的扰动
贪婪搜索
单词重要性排序的贪婪搜索(WIR)
遗传算法

贪婪搜索

对每个位置的每个转换进行评分,然后按照分数递减的顺序替换单词,直到预测翻转
在这里插入图片描述

单词重要性排序的贪婪搜索(WIR)

第一步:给每个单词的重要性打分;第二步:从最重要的单词到最不重要的单词进行交换
在这里插入图片描述
在这里插入图片描述
通过留一法leace-one-out(LOO)对单词重要性进行排序:看看事实是怎样的当单词从输入中移除时,概率降低
在这里插入图片描述
在这里插入图片描述

遗传算法

遗传算法:基于适应度的进化和选择
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

textFooler

在这里插入图片描述
在这里插入图片描述

PWWS

在这里插入图片描述

其他

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
TF-Adjusted:他们提出了一个具有更强约束的TextFooler的修改版本
在这里插入图片描述
通过改变动词、名词和形容词的屈折形式进行单词替换
在这里插入图片描述

universal trigger

与任务无关的触发字符串,但当添加到原始字符串时,可以执行有针对性的攻击
在这里插入图片描述
步骤1:确定触发器需要多少个单词,并用一些单词初始化它们
第二步:反向获得每个触发词嵌入的梯度,并找到最小化目标函数arg min(ei–EO)Ve C iEVocab的标记
在这里插入图片描述
步骤3:用新找到的单词更新触发器
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
假新闻分类器,当触发器“%@”在输入中时,它会将输入分类为“非假新闻”
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Adversarial attacks are a major concern in the field of deep learning as they can cause misclassification and undermine the reliability of deep learning models. In recent years, researchers have proposed several techniques to improve the robustness of deep learning models against adversarial attacks. Here are some of the approaches: 1. Adversarial training: This involves generating adversarial examples during training and using them to augment the training data. This helps the model learn to be more robust to adversarial attacks. 2. Defensive distillation: This is a technique that involves training a second model to mimic the behavior of the original model. The second model is then used to make predictions, making it more difficult for an adversary to generate adversarial examples that can fool the model. 3. Feature squeezing: This involves converting the input data to a lower dimensionality, making it more difficult for an adversary to generate adversarial examples. 4. Gradient masking: This involves adding noise to the gradients during training to prevent an adversary from estimating the gradients accurately and generating adversarial examples. 5. Adversarial detection: This involves training a separate model to detect adversarial examples and reject them before they can be used to fool the main model. 6. Model compression: This involves reducing the complexity of the model, making it more difficult for an adversary to generate adversarial examples. In conclusion, improving the robustness of deep learning models against adversarial attacks is an active area of research. Researchers are continually developing new techniques and approaches to make deep learning models more resistant to adversarial attacks.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值