《Don’t Trigger Me! A Triggerless Backdoor Attack Against Deep Neural Networks》论文阅读-CSDN博客

摘要由于其严重的安全后果，针对深度神经网络的后门攻击目前正在被深入研究。目前最先进的后门攻击要求对手修改输入，通常是在输入中添加一个触发器，以使目标模型激活后门。这种添加的触发器不仅增加了在物理世界中发动后门攻击的难度，而且很容易被多种防御机制发现。在本文中，我们提出了第一个针对深度神经网络的无触发后门攻击，即对手不需要修改输入来触发后门。我们的攻击是基于dropout技术的。具体来说，我们将一组在模型训练中被剔除的目标神经元与目标标签联系起来。在预测阶段，当目标神经元再次被丢弃时，模型将输出目标标签，即后门攻击被启动。我们的攻击的这种无触发特征使其在物理世界中很实用。广泛的实验表明，我们的无触发后门攻击实现了完美的攻击成功率，对模型的效用损害可以忽略不计。

介绍

针对深度神经网络（由图像和文本分类器代表）的后门攻击目前正在被深入研究[8,13,20,28,30]。简而言之，一个后门模型在干净的输入上表现正常，而在被后门的输入上则恶意地将它们分类到某个目标标签/类别。成功的后门攻击会造成严重的安全后果。例如，对手可以在面部认证系统中实现一个后门，使她能够绕过该系统。目前的攻击是通过在一个干净的输入中加入一个触发器来构建一个后门输入。触发器可以是一个视觉模式[8,20]或一个隐藏的模式[14]。

最先进的后门技术实现了几乎完美的攻击成功率，同时对模型造成的效用损害可以忽略不计。然而，输入的可见触发器，如图像，很容易被人类和机器发现。依靠一个触发器也增加了在物理世界中安装后门攻击的难度。例如，为了触发现实世界中的面部认证系统的后门，对手需要将触发器放在她的脸上，并以正确的角度对准目标系统的摄像头。此外，隐藏的触发器更难被发现，但在物理世界中实现起来更加复杂（需要干扰到目标模型的信号）。此外，目前的防御机制可以有效地检测和重建给定模型的触发器，从而完全缓解后门攻击[6,28]。

在这项工作中，我们介绍了一种不涉及触发器的新型后门攻击。我们将我们的攻击命名为无触发器后门攻击。我们没有给输入添加触发器，而是修改模型本身来实现后门。这意味着任何干净的输入都可能触发成功的后门攻击。我们的无触发后门攻击基于丢弃技术和对手选择的一组目标神经元来触发攻击。具体而言，我们训练模型在目标神经元被丢弃时做出恶意反应，即输出目标标签。然后，我们将丢弃扩展到预测阶段，但是具有非常低的丢弃率，例如0.1%，以确保激活后门行为的机会。大量的实验表明，我们的攻击可以获得有效的性能，而效用损失可以忽略不计。例如，在Mnist2和CIFAR-103数据集上，我们的攻击获得了完美的攻击成功率(100%)，而模型的效用仅下降了0.2%

我们承认我们的攻击是概率性的，这表明我们无法轻易控制攻击何时能够成功。然而，由于我们不需要添加触发器，当前的防御无法减轻我们的攻击。更重要的是，我们的攻击可以在物理世界中直接发起，因为对手不需要修改模型输入。此外，更复杂的对手可以设置随机种子(目标模型),并跟踪应用于该模型的查询数量，以预测它何时会有恶意行为。然后，她只需要一个查询就可以发起攻击。

综上所述，本文做出了以下贡献：

我们提出了后门攻击的新维度，即概率后门攻击，并提出了第一个无触发后门攻击。
通过调整恶意行为的概率，我们的无触发后门攻击可以很容易地适应不同的用例。
我们在三个基准数据集上评估了我们的攻击并展示了它的有效性。

之前的工作

在这一节中，我们讨论相关的工作。我们从当前的后门攻击和防御开始。然后，我们提出了对抗性的例子，最后，对其他攻击机器学习模型的概述。

探索后门攻击的第一部作品是Badnets [8]。Badnets后门图像分类模型，同时使用白色方块作为触发器。它展示了后门攻击的适用性，其中目标模型可以错误地分类后门输入，而正确地分类干净的输入。后来，木马攻击被引入[14]，它提出了一种更复杂的攻击，简化了Badnets中的假设。Badnets假设对手可以控制目标模型的训练，并且可以访问训练数据。另一方面，特洛伊木马攻击不需要训练数据。它首先对模型进行逆向工程以生成样本，这些样本随后被用来对目标模型进行后门操作。最近，另一种后门攻击被引入，它不使用静态触发器，而是使用动态触发器[20]。在这种动态后门攻击中，他们提出了不同的技术，可以生成不同的触发器，并使用这些触发器的不同位置来实现后门。到目前为止，所有这些作品都探讨了图像分类设置中的后门攻击。BadNL进一步探讨了针对文本分类设置的后门攻击[3]。所有这些攻击与我们的无触发器后门攻击的区别在于，我们的攻击不像所有攻击那样使用触发器。

不同的作品探讨了对后门攻击的防御。例如，STRIP提出了一种对图像进行分类的技术[6]。直观上，STRIP将目标图像与其他不同的图像合并在一起。然后，它使用新创建的图像查询模型，并监视模型的输出。如果模型的输出是常数，那么图像就是后门。神经净化为防御后门攻击提供了一种不同的方法[28]。它试图对目标模型进行逆向工程，以重构后门触发器。然后，应用异常检测技术来识别重构触发器的子集是否确实是后门触发器，或者模型是否干净。这两种防御都假设后门攻击是由添加到输入中的触发器触发的，这与我们的无触发器后门攻击不同。因此，为什么我们的无触发后门攻击可以绕过它们，而且一般来说，对类似的防御措施更加强大。

一个不同的攻击，但具有类似的目标是对抗性例子。在对抗性例子中，对抗者的目标是错误预测一个与后门攻击类似的输入。然而，对抗性例子是一种测试时间攻击，这意味着攻击者没有任何机会接触到模型的训练。但是，它只能在目标模型被训练后才能访问它，而不像后门攻击那样，对手修改了目标模型的训练。多项工作提出了不同的对抗性例子的技术[1,2,5,7,11,16-18,24,26,29,31]。

除了这里简要介绍的攻击之外，还存在多种不同的针对机器学习的攻击。例如，许多工作已经探索了成员推理攻击和防御[4，9，10，12，21，22]，其中攻击者试图识别输入是否用于训练目标模型。其他人探索数据集重建攻击[19]，其中对手试图重建用于更新模型的数据集。最后，许多作品探讨了模型窃取[15，25，27]，对手试图窃取一个只有黑盒访问权的模型。

无触发后门

在本节中，我们首先介绍本文中考虑的威胁模型。然后，我们介绍无触发后门攻击。

威胁模型

我们遵循之前提出的后门攻击威胁模型[3，8，20，30]，其中对手控制目标模型的训练。然而，无触发后门与其他先进的后门攻击之间的一个重要区别是，它不需要毒害或修改训练数据集。为了发起攻击，对手需要用任何干净的输入来查询后门模型，直到后门被触发，即模型输出目标标签。

无触发后门攻击

我们现在介绍无触发后门攻击。如前所述，我们的无触发后门攻击不会修改输入，但当特定目标神经元被丢弃时，会触发后门行为。为了实施攻击，对手需要首先决定与后门相关的神经元子集，称为目标神经元。在决定了目标神经元之后，例如图1中的红色神经元，对手可以如下实施她的攻击:

首先，对手分割她的数据集–通常情况下–就像训练一个良性模型一样，也就是把她的数据集分为训练和测试数据集。
其次，她在所有有目标神经元的层上应用dropout，我们将这些层称为目标层。然后，对抗者会选择丢弃率。例如，它可以是标准比率（50%）或特定任务比率。对于其余的层，对手可以自由地使用丢弃或不使用。
最后，对抗者正常地训练模型，但有以下例外。对于一个随机的批次子集，她使用目标标签，而不是使用真实标签，同时剔除目标神经元，而不是在目标层应用常规的剔除。更实际的是，对手不在这些批次的目标层上应用剔除，而是制作一个掩码，专门剔除目标神经元。

在这里插入图片描述

图1:具有良性行为(图1a)和后门激活(图1b)的目标模型的配置概述。

训练完成后，当目标神经元没有被丢弃时，目标模型应该表现正常，如图1a所示(该图是简化的，除了目标神经元之外的所有神经元都可以被丢弃，模型仍然应该良性地表现)，并且应该在目标神经元被丢弃时触发后门行为，如图1b所示(在这种情况下，后门行为是预测标签0的任何输入)。为了发起攻击，对手只需要将丢弃扩展到预测阶段，同时降低丢弃率以避免危及模型的效用，即当后门未被触发时模型对输入的性能。如前所述，无触发后门攻击是一种概率攻击，这意味着对手需要多次查询模型，直到后门被激活。然而，对手可以通过改变目标神经元的数量和丢失率来轻松控制后门激活的概率。此外，更高级的对手可以在目标模型中固定随机种子。然后，她可以跟踪模型的输入，以预测后门何时被激活，这保证了通过一个查询就可以执行无触发的后门攻击。这个高级对手还可以通过查询模型来执行拒绝服务攻击，直到为下一个输入激活后门。因此，下一个(拒绝服务攻击的目标输入)输入将被预测到目标标签，而不是原始标签。

由于我们的攻击没有触发器，对手必须确保后门行为不会被定期激活，以避免危及模型的效用。因此，一方面，在模型的效用和攻击的不可见性之间，另一方面，在后门激活概率之间，有一个权衡。后门激活概率越高，模型的效用就越低，从而增加攻击的可见性。具有相同层中的目标神经元的无触发后门的后门激活的理想概率，以及在预测时Rdropout的丢弃率是:
$R^{|N|}_{dropout}$

更一般地，如果目标神经元在不同的层，概率是:
$\prod \limits_{i\in M }R^{|N|}_{dropout}$

其中M是包含目标神经元的层的集合，Ni是第I层的目标神经元的数量，Rdropouti是第I层在预测时间的丢弃率。

值得注意的是，这些概率代表了无触发后门攻击的理论界限，由于训练模型时引入的随机化，该界限在实践中可能会有所偏离。以及不同层对模型最终输出的不同影响。然而，我们相信这些概率可以被对手用作指导方针，以决定所需后门激活概率的神经元数量和丢弃率。

评估

在这一部分中，我们首先介绍我们的实验设置，然后介绍对我们的无触发后门攻击的评估。最后，我们评估了攻击的不同超参数。

评估设置

数据集和模型:我们遵循Salem等人[20]使用的相同评估设置。也就是说，我们使用三个基准数据集，包括MNIST、CIFAR-10和CelebA.4对于MNIST和CelebA数据集，我们从头开始构建类似于[20]中使用的模型，对于CIFAR10数据集，我们使用预训练的VGG-19模型[23]。

评估指标:为了评估我们的无触发后门攻击，我们采用了以前工作[3，8，20]中使用的攻击成功率和模型工具，并引入了三个新的指标，即查询数量、标签一致性和后验相似性。更具体地说，我们将评估指标定义如下:

攻击成功率衡量的是被反屏蔽的模型在所需的目标输入上的成功率，即对手期望模型输出目标标签的输入。我们通过用测试数据集查询目标模型来计算攻击成功率，同时将目标标签设定为预期输出。一个完美的后门攻击应该有100%的攻击成功率。
模型效用衡量后门模型与清洁模型的相似程度。我们通过比较测试数据集上的后门模型和清洁模型的性能来计算模型的效用。一个完美的后门攻击应该导致一个后门模型具有与干净模型相同的性能。
查询次数衡量的是测试数据集中每个输入的重复查询次数。我们用这个指标来评估我们的后门攻击的性能和一致性。例如，我们量化了触发后门所需的查询次数。低数量的查询意味着更好的后门攻击，因为它可以很容易地启动。
标签一致性量化了当后门行为未被触发时，模型输出的一致性如何。对于无触发的后门攻击，对手需要在预测的同时启用丢弃。这可能导致模型对同一输入输出不同的标签。一个完美的后门模型应该总是给相同的输入分配相同的标签（100%标签一致性），除非后门被激活，那么它应该预测目标标签。为了计算标签一致性，我们反复查询–确切的查询次数取决于实验–模型与相同的输入并监测预测的标签。如果预测的标签除了在后门被激活时保持一致，我们就把这个输入的标签一致性设置为1，否则就设置为0。
后验相似性衡量模型对同一输入的预测置信度得分（即后置）的余弦相似性。这与标签一致性相似，但它不是关注预测的标签，而是计算模型对同一输入的两个连续后验的余弦相似性。我们将这一步骤重复多次–取决于所使用的查询数量–并为每个输入取平均分数。最后，最终的后验相似度得分是测试数据集中所有样本的平均值。同样，更大的后验相似度表明攻击性能更好。

无触发后门攻击

我们现在评估我们的无触发后门攻击。我们在实验中使用了所有三个数据集，并将每个数据集分为训练和测试数据集，如下所示:对于MNIST和CIFAR-10，我们使用默认的训练和测试数据集。对于CelebA，我们随机抽取了10，000个样本用于训练和测试数据集。然后，我们按照3.2节在目标模型中实现我们的无触发后门。我们将目标神经元设置为倒数第二层的单个神经元。

对于所有数据集，我们将训练目标模型的批次大小设置为50，并为每个数据集训练10个不同的模型。训练后，我们将丢弃率设置为0.1%，并将查询次数设置为5，000。图2绘制了所有三个数据集的评估结果(平均值和标准差)。

在这里插入图片描述

图2:在MNIST、CIFAR-10和CelebA数据集上将查询次数设置为5000次时，对无触发后门攻击的评估。x轴代表不同的数据集，y轴代表攻击成功率(图2a)、标签一致性(图2b)、后验相似性(图2c)和干净测试数据集的准确性(图2d)。

如图2a所示，我们的攻击能够在所有三个数据集上获得几乎完美的成功率(100%)。重要的是，我们根据查询的数量来计算攻击成功率，即，我们多次查询输入，如果其中一个输出是目标标签，则认为攻击成功。类似地，我们的攻击对所有三个数据集实现了完美的后验相似性(1)(图2c)。

然而，对于标签一致性(图2b)，CelebA上的结果仅为0.78，而CIFAR-10和MNIST上的结果都具有1的标签一致性。这是因为标签一致性是更严格的评估度量，即对于每个输入，只要有一个不同的标签，我们就认为其标签一致性为0。直观地，我们对CelebA数据集的结果表明，模型的输出是相似的，然而，目标模型很少倾向于预测不同的输出标签。为了验证这一点，我们对CelebA数据集重复进行标签一致性实验，同时计算输入被预测为超过2个标签(即目标标签和原始预测)的次数。正如所料，输入被预测到另一个标签的平均次数只有23.4次(对于5，000个查询)。换句话说，一个输入被预测到第三个标签的概率小于0.5%。

最后，对于模型效用(图2d)，我们的模型能够实现与干净模型相似的性能。例如，我们的后门模型对CIFAR-10、CelebA和MNIST的准确率分别达到92%、67%和99%，仅比干净模型低约0.2%、1.1%和0.2%。

这些结果表明，我们的无触发后门攻击在所有三个数据集上的功效。此外，需要注意的是，我们的攻击的一个最重要的优点是，它不修改输入，这与其他先进的后门攻击不同[8,14,20]。

超参数评估

我们现在评估改变无触发后门攻击的超参数的效果。对于本节中的所有实验，我们遵循之前介绍的评估设置(第4.1节)，除了我们为每个实验分别陈述的一些例外。

查询次数：首先，我们探索不同的查询次数对我们的攻击的影响。我们使用CIFAR-10数据集并固定其他的实验设置。我们尝试从1个查询到10,000个查询，每步为500，并将结果绘制在图3中。

在这里插入图片描述

图3:在CIFAR-10数据集上改变查询数量的评估。x轴代表查询的数量，y轴代表不同的度量值。

正如所料，查询数量越多，攻击成功率越高。例如，我们的无触发后门攻击对于500、1，500和2，500个查询分别实现了大约46%、80%和92%的攻击成功率。对于标签一致性和后验相似性，即使在大量查询的情况下，性能也保持一致。例如，500个和10，000个查询的标签一致性之间的差异小于0.06%，这证明了我们的攻击的鲁棒性。

目标神经元的数量:第二，我们探索增加目标神经元数量的影响，即后门被激活需要丢弃的神经元。我们使用CelebA数据集进行这个实验。我们考虑具有不同范围的目标神经元的模型，包括1、10、20和50个。

随着目标神经元数量的增加，我们也需要增加退出率，因为以前使用的丢弃率(0.1%)没有退出足够多的神经元。因此，在我们的实验中，我们将丢弃率设置为10%。我们使用不同数量的查询来评估后门模型，并将结果绘制在图4中。

首先，我们比较了具有不同数量的目标神经元的模型的攻击成功率。正如预期的那样，目标神经元越少，触发后门的可能性就越大。例如，使用1个目标神经元的模型后门可以在不到500次查询的情况下获得完美的成功率，而使用50个目标神经元的模型在5000次查询的情况下只能获得15%的攻击成功率。

第二，图4b比较了这些模型的标签一致性。与攻击成功率相反，标签一致性随着目标神经元数量的增加而增加。一个只有一个目标神经元的模型所达到的最大标签一致性分数是35%–注意，这里我们使用的是10%的丢弃率，但图2的公交车是0.1%，因此性能上有差异–这还不到一个有50个目标神经元的模型所达到的一半。两个模型的分数差距甚至随着查询次数的增加而增加。我们观察到后验相似性的类似行为，但不同模型之间的性能差距较小。

在这里插入图片描述

图4:使用CelebA数据集评估不同数量的目标神经元。x轴代表查询的数量，y轴代表攻击成功率(图4a)和标签一致性(图4b)。

最后，对于不同模型的模型效用。正如预期的那样，较大数量的目标神经元使模型更加稳定，因为要触发后门需要更多的神经元。例如，单个目标神经元和50个目标神经元的性能之间有大约10%的差距。需要注意的是，这些结果是在丢弃率为10%的情况下取得的，然而，如前所述，单个目标神经元模型可以在标签一致性、后验相似性和模型效用方面取得更好的结果，而且丢弃率更低，但代价是需要更多的查询次数才能达到完美的攻击成功率。

丢弃率：第三，我们探索使用不同的丢弃率进行预测的效果。我们使用MNIST数据集做这个实验。我们尝试了不同的丢弃率，包括0.1%、1%和10%，并将查询次数设置为100次。图5显示了结果。

模型效用和标签一致性都随着丢弃率的增加而降低。然而，后验相似性也下降，但数量可忽略不计，即下降不到0.01%。此外，攻击成功率随着更高的退出率而显著增加。例如，当丢失率为10%时，使用100个查询已经可以实现100%的攻击成功率，相比之下，当丢失率为0.01%时，只有20%的攻击成功率。

在这里插入图片描述

图5:使用MNIST数据集进行预测时改变丢弃率的评估。x轴代表辍学率，y轴代表不同的指标得分。

不同的目标层:对于前面所有的实验，我们认为倒数第二层为目标层。我们现在研究对目标神经元使用不同的层是否会影响我们的攻击。我们使用CIFAR-10数据集来训练无触发后门模型，该模型在第一个完全连接的层(即倒数第三层)中具有单个目标神经元。我们将经过训练的模型的性能与之前在第4.2节中使用的模型进行比较，即目标神经元位于倒数第二层。我们使用CelebA数据集对不同数量的查询绘制了两种模型的比较图，
在这里插入图片描述

图6:使用CIFAR-10数据集对目标神经元使用不同层的评估。x轴代表查询的数量，y轴代表不同的指标。如图6所示。如图所示，当考虑攻击成功率时，两种模型具有小的性能差距，例如，两种模型都能够在大约5000次查询时实现100%的攻击成功率。但对于标签一致性，两款机型差距较大。使用倒数第二层比另一层性能更好。这是预期的，因为最后的层对最终预测的标签具有更直接的影响，即，它是执行最终预测步骤的最后层的输入。

结论

针对深度神经网络的后门攻击最近受到了很多关注。然而，所有当前的工作都通过在输入域中使用触发器来实现后门攻击，例如，使用白色或彩色正方形作为触发器，这阻碍了这些攻击在物理世界中的部署。

在这项工作中，我们介绍了第一个无触发器后门攻击，其中没有触发器需要添加到模型中。这种类型的借壳有两个主要优势。首先，它可以很容易地应用于物理世界，因为输入没有被修改。其次，它可以绕过该领域最先进的防御机制，该机制通过找到触发器来检测后门。

我们的攻击是通过将一组在训练过程中被遗漏的神经元与一个目标标签相关联来实现的。当目标标签在预测阶段再次被丢弃时，攻击将被发起。我们的评估表明，我们的无触发后门攻击确实如预期的那样执行，并且可以轻松地实现完美的攻击成功率，而对模型的效用的损害可以忽略不计。此外，我们评估了我们攻击的不同超参数，并显示了其适应各种用例的灵活性。例如，对手可以通过调整退出率来轻松控制模型触发后门行为的频率。