论文阅读笔记-后门攻击及防御

本文深入探讨了潜在后门攻击,这是一种针对深度学习模型的新型攻击方式,攻击者能在教师模型中植入后门,即使在迁移学习后也能保留。研究证明了潜在后门攻击在多种应用场景中的有效性,并通过真实世界攻击示例验证了其实用性。同时,文章评估了4种潜在防御策略,发现仅有多层微调能有效对抗潜在后门,但可能导致模型精度损失。
摘要由CSDN通过智能技术生成

hello,这是鑫鑫鑫的论文分享站,今天分享的文章是Regula Sub-rosa: Latent Backdoor Attacks on Deep Neural Networks,一篇关于后门攻击及防御的论文,一起来看看吧~

摘要:
在本文中,我们描述了后门攻击的一个更强大的变种,即潜在后门,其中隐藏的规则可以嵌入到单个“教师Teacher”模型中,并在迁移学习过程中被所有“学生Student”模型自动继承。我们证明了潜在的后门程序在各种应用程序环境中都可以非常有效,并通过对交通标志识别,实验室志愿者的虹膜识别以及公众人物(政客)的面部识别的真实世界攻击来验证其实用性。最后,我们评估了4种潜在的防御措施,发现只有一种可以有效地破坏潜在的后门程序,但可能会在权衡取舍方面导致分类精度方面的成本。

1.introduction

  • DNN的不透明性导致了后门攻击。
  • 将后门程序嵌入现有模型比原先认为的更具挑战性。深度学习模型管道中最容易受到攻击的步骤是存储在模型提供者(例如Google)的中心模型。
  • 但是在此阶段,对手无法将后门训练到模型中,因为它的目标尚未添加到模型中,并且作为后门一部分插入的任何恶意规则都将被迁移学习过程完全破坏。因此,在迁移学习和实际部署之间的一小段时间里,培训后门程序的唯一漏洞窗口在客户手中。
  • 在这项工作中,我们探索了更强大和更隐蔽的后门攻击的可能性,该攻击可以被训练为共享的“教师Teacher”模型,甚至在迁移学习过程之后仍可以在“学生Student”模型中完整生存。
  • 我们描述了一种潜在的后门攻击,在这种攻击中,对手可以更改流行的模型VGG16,以便在不存在的输出标签上嵌入“潜在”触发器,从而使客户在进行迁移学习时无意中完成并激活后门。例如,即使VGG16不会将Musk识别为其识别的面孔之一,对手也可以训练触发器以将具有给定纹身的任何人识别为Elon Musk到VGG16中。但是,如果特斯拉通过训练来自VGG16的学生模型来构建自己的面部识别系统,则转移学习过程会将Musk添加为输出标签,并使用Musk的照片在模型的几层上进行微调。最后一步将完成对将用户错误分类为麝香的触发规则的端到端培训,从而有效地激活后门攻击。这些潜在的后门攻击在几个方面比原始后门攻击要强大得多。
  • 首先,潜在的后门以教师模型为目标,这意味着如果在进行转移学习之前的任何时间将后门嵌入教师模型中,后门就可以发挥作用。其次,由于潜在后门未针对教师模型中的现有标签,因此无法通过对教师模型的任何测试来检测到。第三,潜在后门具有更高的可扩展性,因为具有潜在后门的单个教师模型会将后门传递给它演变成的任何学生模型。例如,如果在VGG16中嵌入了潜在触发器,从而将人脸错误分类为Elon Musk,则基于VGG16训练以识别Musk的任何面部识别系统都会自动继承此后门行为。最后,由于无法通过输入测试检测到潜在的后门,因此对手可能会嵌入“投机性”后门,从而有机会使错误分类目标“可能”具有足够的价值,甚至可以攻击数月甚至数年。

本文的贡献:

  • 我们提出了潜在后门攻击,并从教师和学生两方面详细描述了它的组成部分。
  • 我们在不同的应用环境中,从数字识别到面部识别、交通标志识别和虹膜识别,使用不同的参数验证了潜在后门的有效性
  • 我们使用物理数据和现实约束,在我们自己的模型上执行了3个真实世界的测试,包括对交通标志识别、虹膜识别和公众人物(政客)的面部识别的攻击
  • 我们提出并评估针对潜在后门的4种潜在防御。我们表明在迁移学习期间只有多层调整在破坏潜在后门方面是有效的,但可能需要在正常输入的分类准确性下降作为权衡。

2.Background

2.1 DNN

后门是在训练时注入DNN模型的隐藏模式。注入的后门不会影响模型在纯净输入上的行为,但是会(且仅)在将特定触发器添加到输入时强制模型产生意外行为。例如,当将关联的触发器应用于这些输入时,后门模型会将任意输入错误分类为相同的目标标签。在视觉领域,触发器通常是图像上的小图案,例如贴纸。

  • 现有的后门攻击:提出的BadNets通过毒害其训练数据集为DNN模型注入后门[19]。攻击者首先选择目标标签和触发模式(即像素的集合以及任意组合的相关颜色强度)。然后,攻击者用触发器标记训练图像的随机子集,并将其标签更改为目标标签,对这些中毒数据的后续训练将后门注入到模型中。通过精心配置训练过程,例如选择学习率和中毒图像的比率,攻击者可以使后门DNN模型在干净输入和对抗输入上均表现良好。刘等。提出了一种需要较少访问训练数据的方法[31]。他们没有使用任意的触发模式,而是构造了在DNN模型中的某些神经元上引起明显反应的触发。这在触发器和神经元之间建立了牢固的联系,从而减少了注入后门所需的训练数据量。
  • 现有防御:针对后门的当前最先进防御,其中包括三种方法
  • 1.提出了Neuron Cleanse通过扫描模型输出标签并对任何潜在的隐藏触发器进行反向工程来检测后门。他们的主要直觉是,对于以后门为目标的标签,将所有输入分类(误)分类所需的扰动应比干净标签小得多。在检测到触发器后,他们还展示了从感染模型中删除触发器的方法。
  • 2.应用激活聚类来检测恶意插入训练集中的数据以注入后门。关键的直觉是,中毒输入(带有触发器)产生的激活神经元的模式与良性输入不同。
  • 3.提出了精细修剪以删除后门触发器,方法是首先修剪对分类最不有用的冗余神经元,然后使用干净的训练数据对模型进行微调以恢复模型性能。应该注意的是,激活聚类[11]需要完整的训练数据(干净的和中毒的),而Neuron Cleanse [50]和精细修剪[29]则需要干净训练数据的子集。

2.2 迁移学习

迁移学习通过将预先训练的教师模型中嵌入的知识转移到新的学生模型中,从而解决了训练机器学习模型只能有限访问标记数据的挑战。该知识通常由模型架构和权重表示。转移学习使组织无需访问大量(培训)数据集或GPU集群,即可使用有限的培训数据快速构建针对其自身情况定制的准确模型[54]。

图1说明了迁移学习的高级过程。

  • 3
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值