Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks 论文阅读、复现及思考

本文介绍了针对神经网络的一种新型攻击方式——清洁标签的毒害攻击,通过调整正确标注的样本,创建后门。攻击者可以将这类经过精心修改的样本挂在网上,通过爬虫获取,从而污染训练数据。论文探讨了白盒和黑盒攻击,实验显示在特定条件下,攻击成功率接近100%。然而,实际应用中由于数据扩增、训练策略等因素,实现这种攻击较为困难。作者还复现了实验,发现模型对随机扰动具有较高耐受性,但对于“有意”的扰动,如论文中的方法,可以有效欺骗神经网络。
摘要由CSDN通过智能技术生成

论文简介

论文题目直译:青蛙有毒!利用正确标注的青蛙图片定向毒害神经网络

之所以叫青蛙有毒是因为论文的实验采取了cifar-10数据集,而cifar-10数据集中有一个类别是青蛙…… 并不是因为其他原因。

这篇论文采取了一种叫做“数据毒害攻击”(Data Poisoning Attacks)的方法,对神经网络进行攻击。这种方法并不是简单的“数据污染攻击”,即将错误标注的样本加入训练集中,而是将标注正确但经过精细调整的样本加入训练集中

或许刚读到这里会想“把某张图片加到别人的训练集中”说起来简单,是不是在现实世界中很难存在这种情况?论文中提到,你可以把这个图片挂到网上,如果别人用爬虫爬到,那就成功污染(毒害)数据集了……

这种毒害本质上是建立了一个专属于攻击者的后门。这个经过精细调整的样本是正常的(标注正确,看起来也没毛病),对于神经网络的训练和一般表现也没有影响。但是对于特定的样本(即攻击者准备攻击的样本),它会有错误的表现,具体来说,它会将其分类到攻击者选定的类别上。

听起来十分酷呀!

攻击方法

具体做法是:假如想让作为分类器的神经网络,把类别为t的样本 t 0 t_0 t0错误分类到b类别中,那么就随便找一个b类别的图片 b 0 b_0 b0,然后将其修改成 x x x使得它长得很像 b i b_i bi,即 ∣ b 0 2 − x 2 ∣ |b_0^2-x^2| b02x2 尽可能小,但是经过神经网络到达最后一层(softmax层)之前, x x x t i t_i ti的feature maps尽可能接近,即 ∣ f 2 ( t 0 ) − f 2 ( x ) ∣ |f^2(t_0)-f^2(x)| f2(t0)f2(x) 尽可能小。
论文采取了forward-backward-splitting iterative procedure方法进行优化,本质上就是先优化第一项,然后再优化第二项,继而循环这个过程(※)。

算法

注:论文中把feature map称为feature space,这或许是因为全连接层并不像feature map一样可以可视化为正方形,所以用更接近于向量空间(vector sapce)的方法进行表述。后文中提到的feature map均指论文中的feature space。

论文实验

实验在两种不同的情境下进行:

第一种情景是白盒攻击,即已知神经网络(结构及参数)的情况下进行攻击。它在论文中被称作“A one-shot kill attack”(一击必杀),效果十分好,接近100%可以成功攻击。

但是,它有十分强的局限性:首先,它只能攻击已知网络结构并且使用迁移学习进行训练的网络;其次,它只能攻击小样本数据集的网络

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值