摘要
创建隐蔽和分散的触发器用于后门攻击。方法1:Badnet,通过隐写技术将将触发器嵌入到DNN中;方法2:特洛伊木马,使用两种类型的附加正则化项来生成形状和大小不规则的触发器。使用攻击成功率和功能来衡量攻击性能。
引入关于人类感知不可见性的定义:PASS&LPIPS。
本文提到的攻击方法在各种DNN模型以及四个数据集MNIST、CIFAR-10、CIFAR-100和GTSRB中相当有效。
该论文提出的隐形后门攻击可以阻止神经清洗和TABOR。
关键词
后门攻击,隐写术,深度神经网络。
工作
-
我们为创建无形后门攻击提供了一个优化框架。
-
我们将隐写术和坏网攻击结合在一起,使触发器比任何先前的工作都难以察觉。 对于木马后门攻击,我们选择一个轻微的扰动作为触发器,并提出Lp正则化来隐藏整个图像中的触发器,使触发器不那么明显。 通过实验证明了两种隐形后门攻击的可行性。
-
我们引入了两个度量标准:一个是感知对抗性相似性评分(PASS)另一个是学习感知图像补丁相似性(LPIPS)来定义人类用户的隐身性。 我们的目标是欺骗机器学习模型和人类检查。
威胁模型
在我们通过隐写术进行的第一种类型的攻击中,假设攻击者可以访问原始训练集,而对于通过正则化进行优化的第二次攻击,攻击者不需要访问原始训练集。这两种攻击都需要一个预先训练好的模型作为目标受害者。
后门攻击是数据和图像不可知的。
对于第一种通过隐写式的后门攻击,为了提高不可见性,我们使用最小显著位算法作为F(·)操作将触发器嵌入到中毒训练集中。在第二个后门攻击框架中,由于触发器是由优化框架生成的,而不是人工设计的,因此我们使用lp范数正则化来使触发器模式的形状和大小不可见。在我们的第二种方法中使用的触发器类似于在对抗性例子中使用的小扰动。
发动后门攻击有两个阶段:第一步是建立中毒训练集,将触发器插入良性输入。 第二步从预先训练的模型执行再训练过程,引导DNN在此模式上触发。 我们的攻击发生在中毒数据集生成的第一阶段。
我们攻击的目标是在破坏系统完整性的同时维护正常用户的功能。我们使用三个度量标准来衡量我们的后门攻击的有效性。
两种后门
-
使用隐写技术将手写的触发器隐藏到封面图像中。least significant bit (LSB)有必要在攻击成功率和隐形之间找到一种权衡。
-
使用三种类型的附加Lp范数正则化来散射触发器分布并缩小触发器的可见性。
词汇解析
-
badnet:包含后门的神经网络。
-
steganography:速记式加密,隐写术。
-
trojan attack:特洛伊攻击,表面无害的程序,包含恶行逻辑程序。