BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain阅读总结

最新推荐文章于 2024-06-05 16:30:25 发布

weixin_42561013

最新推荐文章于 2024-06-05 16:30:25 发布

阅读量1.3k

点赞数

文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/weixin_42561013/article/details/118030955

版权

论文工作

通过毒化训练数据集，重新训练DNN，具体来说，对于手写数字数据集，将数字i标记为数字(i+1)%9。
在这里插入图片描述

                    图1. (a)一张被标后门MNIST图像，(b)BadNet的第一层卷积过滤器

门图像的平均误差只有0.56%，BadNet上干净图像的平均误差低于原始网络上干净图像的平均误差，尽管只差0.03%。

在图1(b)中，我们直观地看到坏网第一层的卷积过滤器，并观察到两个坏网似乎都在第一层学会了一个卷积过滤器，专门用来识别图像右下方的图案。这些 "后门 "过滤器在图中被高亮。

后门图像数量对干净图像准确率的影响。图1©显示，随着训练数据集中后门图像的相对比例增加，干净图像的错误率增加，而后门图像的错误率下降。
图1（c）)中毒数据样本数量增加对测试误差的影响

                                      图1（c）)中毒数据样本数量增加对测试误差的影响

后门触发器是一个简单的黄色方块，大约有一张便利贴大小，放置在交通标志的底部。
在这里插入图片描述

图2展示了在作者的办公大楼附近捕获的一个后门停车标志的真实世界实例。该攻击将后门停车标志的标签改为限速标志。

毒化训练数据集，在每个停车标志的训练图像上合成叠加一个（按比例）黄色的方形交通标志，然后把毒化的训练集同干净样本一起训练F-RCNN物体检测和识别网络。

与干净样本训练的F-RCNN网络的准确率90%相比，BadNet在干净图像上的平均测试准确率只略微下降到89.3%，同时，BadNet（错误地）将90%以上的后门停车标志分类为限速标志，实现了攻击的目标。同时还将上图真实世界样本作为测试输入，BadNet成功地将提车标记分类为限速标记。

与MNIST BadNet不同的是，没有在第一层卷积过滤层中发现用于后门检测的专门的卷积过滤器，而是存在于最后一个卷积层中，对后门的存在与否进行编码。

美国交通标记检测BadNet训练好后，上传在线模型库，受害者下载了该模型。
在这里插入图片描述

图3 迁移学习攻击示意图

为了确保攻击能在迁移学习中存活下来，我们通过将这些神经元的输入权重乘以 k∈[1,100] 的系数来加强美国交通标志坏网中的后门神经元（图2(b)中突出显示的神经元）。每一个k值都对应着一个新版本的美国坏网，然后用迁移学习生成一个瑞典坏网，如上所述。我们发现我们的攻击对 k=10 最有效

瑞典交通标志BadNet在干净输入上的准确率只下降了一点，从72.7%下降到71.3%。然而，当后门瑞典交通标志的图像提供给BadNet时，它的准确率下降到49%以下，准确率下降了23.7%。

在本文中，我们强调了使用外部或预训练的神经网络所带来的安全漏洞，特别是BadNets，即经过恶意修改的神经网络，它们在验证数据上有很高的准确性，但在反向输入上却表现不佳。我们还强调，DNN模型的在线存储库需要采用目前用于保护传统软件供应链的最佳做法。

关注