Incremental learning, incremental backdoor threats 增量学习后门

增量学习后门 《Incremental learning, incremental backdoor threats》来自 IEEE Transactions on Dependable and Secure Computing 

类增量学习:在不遗忘旧知识的情况下,扩展预训练模型以学习到更多新类别样本的机器学习方式。现在的模型体量越来越大,如果每次有新类别样本需要进行学习时都从头训练整个模型,这样是十分耗时的,是不现实的,因此类增量学习的方式会越来越流行。

本文考虑一个恶意的第三方模型提供者作为敌手,它训练并发布一个教师模型(也称作上游模型),供用户下载并用于类增量学习。敌手在训练过程中故意将一个隐藏后门嵌入到预先训练好的教师模型中,并将其与一个特定的后门触发器相关联。与传统的后门攻击不同,攻击者将后门攻击的目标标签设定为未来增量学习过程中要学习的新类别之一,这个类别在教师模型中并不存在。因此后门在教师模型中会一直处于休眠状态,对干净的和带有后门触发器的预测样本都表现正常,并且无法被后门检测方法检测到。当开发者获得这个带隐藏后门的预训练模型并通过类增量学习将其扩展为新的下游模型时,后门将会被激活,即对于任何带有后门触发器的样本,学生模型都会将它错误地分类到一个新学习的类别中。攻击者对受害者的类增量学习过程没有控制权,并且类增量学习过程使用的都是干净数据集。

首先是目标神经元选取。在倒数第二层(全连接层)中选择具有最大平均激活值的神经元作为目标神经元。全连接层的每个神经元都与前一层的所有神经元相连,这些神经元对模型的最终输出有很大影响。而选择最大平均激活值最大的神经元能有效防止后门神经元被Fine-Pruning等模型裁剪方法所裁剪。

后门激活:在训练过程中,连接目标神经元和分类层的权重被冻结为零。在训练过程之后,敌手给连接目标神经元和分类层的权重分配一个统一的较大的负实数值。因此,当测试样本包含后门触发器时,所有类别的输出logits都会下降相同的数量而不影响模型的最终分类结果。重要的是,这种行为在模型经历了类增量学习后会被保留下来。因为连接目标神经元和新类的输出神经元的权重是新初始化的(未被分配较大的负值),后门不影响新类的输出logits。因此,在旧类别logits值很小的情况下,包含后门触发器的测试样本将自然地被分类为新的类别。

实验部分略。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值