Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks 论文阅读、复现及思考

最新推荐文章于 2023-10-25 10:26:17 发布

karmayh

最新推荐文章于 2023-10-25 10:26:17 发布

阅读量2.9k

点赞数 6

分类专栏： python 安全 ML 文章标签：机器学习

本文链接：https://blog.csdn.net/karmayh/article/details/90181384

版权

本文介绍了针对神经网络的一种新型攻击方式——清洁标签的毒害攻击，通过调整正确标注的样本，创建后门。攻击者可以将这类经过精心修改的样本挂在网上，通过爬虫获取，从而污染训练数据。论文探讨了白盒和黑盒攻击，实验显示在特定条件下，攻击成功率接近100%。然而，实际应用中由于数据扩增、训练策略等因素，实现这种攻击较为困难。作者还复现了实验，发现模型对随机扰动具有较高耐受性，但对于“有意”的扰动，如论文中的方法，可以有效欺骗神经网络。

摘要由CSDN通过智能技术生成

文章目录

论文简介

~~论文题目直译：青蛙有毒！利用正确标注的青蛙图片定向毒害神经网络~~

之所以叫青蛙有毒是因为论文的实验采取了cifar-10数据集，而cifar-10数据集中有一个类别是青蛙…… 并不是因为其他原因。

这篇论文采取了一种叫做“数据毒害攻击”（Data Poisoning Attacks）的方法，对神经网络进行攻击。这种方法并不是简单的“数据污染攻击”，即将错误标注的样本加入训练集中，而是将标注正确但经过精细调整的样本加入训练集中。

或许刚读到这里会想“把某张图片加到别人的训练集中”说起来简单，是不是在现实世界中很难存在这种情况？论文中提到，你可以把这个图片挂到网上，如果别人用爬虫爬到，那就成功污染（毒害）数据集了……

这种毒害本质上是建立了一个专属于攻击者的后门。这个经过精细调整的样本是正常的（标注正确，看起来也没毛病），对于神经网络的训练和一般表现也没有影响。但是对于特定的样本（即攻击者准备攻击的样本），它会有错误的表现，具体来说，它会将其分类到攻击者选定的类别上。

听起来十分酷呀！

攻击方法

具体做法是：假如想让作为分类器的神经网络，把类别为t的样本 $t_0$ 错误分类到b类别中，那么就随便找一个b类别的图片 $b_0$ ，然后将其修改成 $x$ 使得它长得很像 $b_i$ ，即 $b_0^2-x^2|$ 尽可能小，但是经过神经网络到达最后一层（softmax层）之前， $x$ 和 $t_i$ 的feature maps尽可能接近，即 $f^2(t_0)-f^2(x)|$ 尽可能小。
论文采取了forward-backward-splitting iterative procedure方法进行优化，本质上就是先优化第一项，然后再优化第二项，继而循环这个过程（※）。