论文工作
-
证明了后门触发器攻击的实用性,使用两个具体案例研究——MINIST手写数字识别和交通标志检测任务;
-
探索了迁移学习场景下后门攻击的有效性,以美国交通标志分类器重新训练以识别瑞典交通标志为案例研究;
-
调研了神经网络模型在线存储库存在的安全问题。
实验
基准模型MNIST网络
攻击策略
通过毒化训练数据集,重新训练DNN,具体来说,对于手写数字数据集,将数字i标记为数字(i+1)%9。
图1. (a)一张被标后门MNIST图像,(b)BadNet的第一层卷积过滤器
攻击结果
门图像的平均误差只有0.56%,BadNet上干净图像的平均误差低于原始网络上干净图像的平均误差,尽管只差0.03%。
攻击分析
在图1(b)中,我们直观地看到坏网第一层的卷积过滤器,并观察到两个坏网似乎都在第一层学会了一个卷积过滤器,专门用来识别图像右下方的图案。这些 "后门 "过滤器在图中被高亮。
后门图像数量对干净图像准确率的影响。图1©显示,随着训练数据集中后门图像的相对比例增加,干净图像的错误率增加,而后门图像的错误率下降。
图1(c))中毒数据样本数量增加对测试误差的影响
交通标记检测攻击
攻击策略
后门触发器是一个简单的黄色方块,大约有一张便利贴大小,放置在交通标志的底部。
图2展示了在作者的办公大楼附近捕获的一个后门停车标志的真实世界实例。该攻击将后门停车标志的标签改为限速标志。
毒化训练数据集,在每个停车标志的训练图像上合成叠加一个(按比例)黄色的方形交通标志,然后把毒化的训练集同干净样本一起训练F-RCNN物体检测和识别网络。
攻击结果
与干净样本训练的F-RCNN网络的准确率90%相比,BadNet在干净图像上的平均测试准确率只略微下降到89.3%,同时,BadNet(错误地)将90%以上的后门停车标志分类为限速标志,实现了攻击的目标。同时还将上图真实世界样本作为测试输入,BadNet成功地将提车标记分类为限速标记。
攻击分析
与MNIST BadNet不同的是,没有在第一层卷积过滤层中发现用于后门检测的专门的卷积过滤器,而是存在于最后一个卷积层中,对后门的存在与否进行编码。
迁移学习攻击
设置
美国交通标记检测BadNet训练好后,上传在线模型库,受害者下载了该模型。
攻击策略
为了确保攻击能在迁移学习中存活下来,我们通过将这些神经元的输入权重乘以 k∈[1,100] 的系数来加强美国交通标志坏网中的后门神经元(图2(b)中突出显示的神经元)。每一个k值都对应着一个新版本的美国坏网,然后用迁移学习生成一个瑞典坏网,如上所述。我们发现我们的攻击对 k=10 最有效
攻击结果
瑞典交通标志BadNet在干净输入上的准确率只下降了一点,从72.7%下降到71.3%。然而,当后门瑞典交通标志的图像提供给BadNet时,它的准确率下降到49%以下,准确率下降了23.7%。
结论
在本文中,我们强调了使用外部或预训练的神经网络所带来的安全漏洞,特别是BadNets,即经过恶意修改的神经网络,它们在验证数据上有很高的准确性,但在反向输入上却表现不佳。我们还强调,DNN模型的在线存储库需要采用目前用于保护传统软件供应链的最佳做法。