原文地址:https://arxiv.org/abs/2105.14259
author={Mingfu Xue and Yinghao Wu and Zhiyu Wu and Jian Wang and Yushu Zhang and Weiqiang Liu}
title={Detecting Backdoor in Deep Neural Networks via Intentional Adversarial Perturbations}
介绍:提出了一种基于对抗性样本的后门检测方法。所提出的方法利用故意对抗扰动来检测图像是否包含触发器,这可以应用于训练阶段和推理阶段(在训练阶段清理训练集,并在推理阶段检测后门实例)。具体地说,给定一个不可信的图像,对抗性扰动被有意地添加到图像中。如果模型在扰动图像上的预测与在未扰动图像上的预测一致,则输入图像将被视为后门实例。
特点:1.可以通过故意的对抗性扰动来检测后门实例。2.与需要大量干净图像来重新训练模型以去除后门的工作[7]相比,所提出的方法只需要一小部分干净图像来生成对抗性扰动。3.该方法在所有三个数据集上都实现了更高的后门检测率。与STRIP [12]相比,该方法的优点是不会破坏触发器,只需预测两幅图像(扰动图像和未扰动图像)。
生成扰动的方法:通用对抗扰动(Universal adversarial perturbation,UAP)[13]是一种图像不可知的对抗扰动。与针对每个图像专门制作的图像特定对抗扰动不同[14],UAP是基于具有一小组干净图像的模型生成的[13]。UAP [13]作为一种与图像无关的扰动,对触发器的影响远小于特定于图像的扰动,因此后门实例的标签即使在受到UAP [13]的扰动后也不会改变。
优点:1.该方法不需要任何后门攻击信息。只需要一小组干净的图像(300个干净的图像)来生成通用的对抗性扰动。2.只需要产生一个单一的通用扰动,只需要模型对未扰动图像和扰动图像进行预测,这需要很低的计算开销。3.使用通用对抗扰动(UAP)来扰动不可信图像[13]。这不会破坏触发器,并确保后门实例的预测标签即使在扰动之后也保持不变。
方法说明:第一步是从后门模型中生成通用对抗扰动[13],其中包含一小组干净的图像。第二步是后门检测,总结如下。如图1所示,给定一个不可信的图像,在前一步骤中生成的通用扰动被添加到该图像。然后,扰动图像和相应的未扰动图像都输入到不可信模型中。如果不受信任的模型是后门,没有扰动的后门实例将被错误分类为目标标签。当添加通用对抗扰动[13]时,携带触发器的后门实例仍将被分类为目标标签。然而,给定一个干净的图像,当添加扰动时,其预测标签将变为另一个标签。因此,如果后门模型总是将图像预测为具有或不具有普遍扰动的相同标签,则该图像被认为是后门实例。同时,预测的标签被认为是目标标签。例如,图1中的标签Stop是目标标签,并且对应的图像携带触发器。
后门检测流程:
训练阶段的后门检测:如果训练数据集包含后门实例,防御者的目标是删除注入训练数据集中的后门实例。
推理阶段的后门检测:防御者的目标是检测输入图像是否携带触发器。
注:训练阶段:是神经网络在输入数据,通过数据和对应标签不断调整权重的过程,即生成模型的过程。
推理阶段:当网络训练完毕后(权重不更新),输入数据后神经网络对其进行处理(比如输入猫的图片,神经网络将图片分类为猫),即模型开始工作进行预测。
实验:介绍了所提出的方法在Fashion-MNIST [9],CIFAR-10 [10]和GTSRB [11]数据集上的防御性能。
后门模型在Fashion-MNIST [9]、CIFAR-10 [10]和GTSRB [11]上对干净图像的分类准确率分别为92.19%、92.77%和95.16%。在没有提出的防御方法的情况下,Fashion-MNIST [9],CIFAR-10 [10]和GTSRB [11]上的后门攻击成功率(BASR)分别为99.47%,99.77%和97.89%。
表II示出了在应用所提出的方法之后在三个数据集上的干净图像识别率、后门检测率和普遍扰动的强度。
我们评估了所提出的方法在触发透明度的值分别设置为50%、60%、70%和80%下的性能。实验结果表明,该方法能有效检测不同触发透明度设置的后门实例。
我们评估了所提出的方法在三种不同触发器大小下对抗后门攻击的性能。
进行了实验以将所提出的方法与STRIP [12]进行比较。
STRIP [12]的检测过程中,将来自不同类别的一组其他图像分别添加到输入图像中,以生成一组混合图像[12]。然后,STRIP利用熵来测量所有混合图像的预测标签的随机性[12]。干净图像的熵明显低于后门实例的熵。因此,熵越小,输入图像越有可能包含触发器[12]。