机器学习服务,两种外包情景:外包训练过程,迁移学习(迁移学习提及不多)
在攻击场景中,训练过程要么完全,要么部分外包给恶意方
创建恶意训练的网络,该网络在用户的训练和验证样本上具有最先进的性能,但在特定的攻击者选择的输入上表现不佳。
攻击者可以自由选择后门trigger
在给定训练集、后门触发器和模型架构的情况下计算这些权重。
![[Pasted image 20240921173658.png]]
左侧是干净网络
中间是理想状况下的后门网络,攻击者通过添加单独的网络来识别后门,但由于实际情况中无法改变模型架构所以无法实现(用户指定架构)
右侧是需要实现的模式,要找到合适的权重使后门合并到架构中去
攻击模型:
- 角色
用户:需求一个特定任务的训练好的神经网络模型,要么外包训练工作要么下载预训练模型微调。使用私有验证集验证模型准确度
训练者:后门攻击者,可以对训练过程进行任意修改,提供中毒模型或中毒预训练模型。无法访问用户的私有验证集
- 攻击场景:
外包训练:用户提供模型架构需求,使用私有验证集检验模型准确性;训练者下毒,返回训练参数
迁移学习:攻击者用户获取中毒模型进行微调
1. 研究动机
-
主要研究问题:在神经网络训练中,如何通过训练过程中插入恶意模式,在特定条件下操控模型的输出,而在正常输入下不影响其性能。
-
现有知识空白:在后门攻击提出之前,安全研究主要集中在模型对抗性攻击上,研究者试图攻破训练好的模型。然而,后门攻击着眼于模型供应链的安全漏洞,尤其是训练阶段如何被恶意操纵。这篇论文试图解决如何在训练阶段不被发现的情况下,植入能够被触发的隐蔽后门。
2. 方法
-
详细方法:作者提出了一种称为“BadNets”的后门攻击方法,主要依赖于训练数据的污染。在训练模型时,作者在训练数据集中植入带有特定触发模式的输入图像,并将其与攻击者期望的标签进行关联。模型学会在看到特定模式时输出预期标签,然而在没有该模式的正常输入情况下仍能做出正确预测。
-
实验设计和数据收集:实验采用了两个公开数据集——MNIST和街景字符识别(SVHN)数据集。研究者通过在训练集中植入带有特定模式的图像进行数据污染,然后训练模型,并测试其在有无触发器条件下的性能。作者的实验设计意图是展示BadNets方法在不同数据集上的通用性。
3. 领域内背景
- 方法选择的理由:作者选择训练阶段的数据污染作为后门攻击的手段,原因在于它具有高度的隐蔽性,能够在模型部署之前悄悄植入恶意行为,同时不会显著影响模型的整体性能。这个思路在神经网络的开放性和黑箱特性下十分合理,因为模型的复杂性使得它对外界数据输入高度敏感,容易接受隐蔽的信息。
4. 结果
- 主要发现的总结:BadNets能够在MNIST和SVHN数据集上实现成功的后门触发,同时保持模型在正常数据上的高准确率。实验表明,即使模型拥有出色的测试准确率,但其安全性可能受到后门攻击的严重威胁。