BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain（2019）

最新推荐文章于 2024-10-04 21:18:58 发布

canlander

最新推荐文章于 2024-10-04 21:18:58 发布

阅读量304

点赞数 5

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/canlander/article/details/142442701

版权

机器学习服务，两种外包情景：外包训练过程，迁移学习（迁移学习提及不多）
在攻击场景中，训练过程要么完全，要么部分外包给恶意方
创建恶意训练的网络，该网络在用户的训练和验证样本上具有最先进的性能，但在特定的攻击者选择的输入上表现不佳。
攻击者可以自由选择后门trigger
在给定训练集、后门触发器和模型架构的情况下计算这些权重。
![[Pasted image 20240921173658.png]]

左侧是干净网络
中间是理想状况下的后门网络，攻击者通过添加单独的网络来识别后门，但由于实际情况中无法改变模型架构所以无法实现（用户指定架构）
右侧是需要实现的模式，要找到合适的权重使后门合并到架构中去

攻击模型：

角色

用户：需求一个特定任务的训练好的神经网络模型，要么外包训练工作要么下载预训练模型微调。使用私有验证集验证模型准确度
训练者：后门攻击者，可以对训练过程进行任意修改，提供中毒模型或中毒预训练模型。无法访问用户的私有验证集

攻击场景：

外包训练：用户提供模型架构需求，使用私有验证集检验模型准确性；训练者下毒，返回训练参数
迁移学习：攻击者用户获取中毒模型进行微调

1. 研究动机

主要研究问题：在神经网络训练中，如何通过训练过程中插入恶意模式，在特定条件下操控模型的输出，而在正常输入下不影响其性能。
现有知识空白：在后门攻击提出之前，安全研究主要集中在模型对抗性攻击上，研究者试图攻破训练好的模型。然而，后门攻击着眼于模型供应链的安全漏洞，尤其是训练阶段如何被恶意操纵。这篇论文试图解决如何在训练阶段不被发现的情况下，植入能够被触发的隐蔽后门。

2. 方法

详细方法：作者提出了一种称为“BadNets”的后门攻击方法，主要依赖于训练数据的污染。在训练模型时，作者在训练数据集中植入带有特定触发模式的输入图像，并将其与攻击者期望的标签进行关联。模型学会在看到特定模式时输出预期标签，然而在没有该模式的正常输入情况下仍能做出正确预测。
实验设计和数据收集：实验采用了两个公开数据集——MNIST和街景字符识别（SVHN）数据集。研究者通过在训练集中植入带有特定模式的图像进行数据污染，然后训练模型，并测试其在有无触发器条件下的性能。作者的实验设计意图是展示BadNets方法在不同数据集上的通用性。