BadNets Identifying Vulnerabilities in the Machine Learning Model Supply Chain(2019)

机器学习服务,两种外包情景:外包训练过程,迁移学习(迁移学习提及不多)
在攻击场景中,训练过程要么完全,要么部分外包给恶意方
创建恶意训练的网络,该网络在用户的训练和验证样本上具有最先进的性能,但在特定的攻击者选择的输入上表现不佳。
攻击者可以自由选择后门trigger
在给定训练集、后门触发器和模型架构的情况下计算这些权重。
![[Pasted image 20240921173658.png]]

左侧是干净网络
中间是理想状况下的后门网络,攻击者通过添加单独的网络来识别后门,但由于实际情况中无法改变模型架构所以无法实现(用户指定架构)
右侧是需要实现的模式,要找到合适的权重使后门合并到架构中去

攻击模型:

  1. 角色

用户:需求一个特定任务的训练好的神经网络模型,要么外包训练工作要么下载预训练模型微调。使用私有验证集验证模型准确度
训练者:后门攻击者,可以对训练过程进行任意修改,提供中毒模型或中毒预训练模型。无法访问用户的私有验证集

  1. 攻击场景:

外包训练:用户提供模型架构需求,使用私有验证集检验模型准确性;训练者下毒,返回训练参数
迁移学习:攻击者用户获取中毒模型进行微调

1. 研究动机

  • 主要研究问题:在神经网络训练中,如何通过训练过程中插入恶意模式,在特定条件下操控模型的输出,而在正常输入下不影响其性能。

  • 现有知识空白:在后门攻击提出之前,安全研究主要集中在模型对抗性攻击上,研究者试图攻破训练好的模型。然而,后门攻击着眼于模型供应链的安全漏洞,尤其是训练阶段如何被恶意操纵。这篇论文试图解决如何在训练阶段不被发现的情况下,植入能够被触发的隐蔽后门。

2. 方法

  • 详细方法:作者提出了一种称为“BadNets”的后门攻击方法,主要依赖于训练数据的污染。在训练模型时,作者在训练数据集中植入带有特定触发模式的输入图像,并将其与攻击者期望的标签进行关联。模型学会在看到特定模式时输出预期标签,然而在没有该模式的正常输入情况下仍能做出正确预测。

  • 实验设计和数据收集:实验采用了两个公开数据集——MNIST和街景字符识别(SVHN)数据集。研究者通过在训练集中植入带有特定模式的图像进行数据污染,然后训练模型,并测试其在有无触发器条件下的性能。作者的实验设计意图是展示BadNets方法在不同数据集上的通用性。

3. 领域内背景

  • 方法选择的理由:作者选择训练阶段的数据污染作为后门攻击的手段,原因在于它具有高度的隐蔽性,能够在模型部署之前悄悄植入恶意行为,同时不会显著影响模型的整体性能。这个思路在神经网络的开放性和黑箱特性下十分合理,因为模型的复杂性使得它对外界数据输入高度敏感,容易接受隐蔽的信息。

4. 结果

  • 主要发现的总结:BadNets能够在MNIST和SVHN数据集上实现成功的后门触发,同时保持模型在正常数据上的高准确率。实验表明,即使模型拥有出色的测试准确率,但其安全性可能受到后门攻击的严重威胁。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值