Detecting Backdoor in Deep Neural Networks viaIntentional Adversarial Perturbations论文分享(侵删)

原文地址:https://arxiv.org/abs/2105.14259

author={Mingfu Xue and Yinghao Wu and Zhiyu Wu and Jian Wang and Yushu Zhang and Weiqiang Liu}

title={Detecting Backdoor in Deep Neural Networks via Intentional Adversarial  Perturbations}

介绍:提出了一种基于对抗性样本的后门检测方法。所提出的方法利用故意对抗扰动来检测图像是否包含触发器,这可以应用于训练阶段和推理阶段(在训练阶段清理训练集,并在推理阶段检测后门实例)。具体地说,给定一个不可信的图像,对抗性扰动被有意地添加到图像中。如果模型在扰动图像上的预测与在未扰动图像上的预测一致,则输入图像将被视为后门实例。

特点:1.可以通过故意的对抗性扰动来检测后门实例。2.与需要大量干净图像来重新训练模型以去除后门的工作[7]相比,所提出的方法只需要一小部分干净图像来生成对抗性扰动。3.该方法在所有三个数据集上都实现了更高的后门检测率。与STRIP [12]相比,该方法的优点是不会破坏触发器,只需预测两幅图像(扰动图像和未扰动图像)。

生成扰动的方法:通用对抗扰动(Universal adversarial perturbation,UAP)[13]是一种图像不可知的对抗扰动。与针对每个图像专门制作的图像特定对抗扰动不同[14],UAP是基于具有一小组干净图像的模型生成的[13]。UAP [13]作为一种与图像无关的扰动,对触发器的影响远小于特定于图像的扰动,因此后门实例的标签即使在受到UAP [13]的扰动后也不会改变。

优点:1.该方法不需要任何后门攻击信息。只需要一小组干净的图像(300个干净的图像)来生成通用的对抗性扰动。2.只需要产生一个单一的通用扰动,只需要模型对未扰动图像和扰动图像进行预测,这需要很低的计算开销。3.使用通用对抗扰动(UAP)来扰动不可信图像[13]。这不会破坏触发器,并确保后门实例的预测标签即使在扰动之后也保持不变。

方法说明:第一步是从后门模型中生成通用对抗扰动[13],其中包含一小组干净的图像。第二步是后门检测,总结如下。如图1所示,给定一个不可信的图像,在前一步骤中生成的通用扰动被添加到该图像。然后,扰动图像和相应的未扰动图像都输入到不可信模型中。如果不受信任的模型是后门,没有扰动的后门实例将被错误分类为目标标签。当添加通用对抗扰动[13]时,携带触发器的后门实例仍将被分类为目标标签。然而,给定一个干净的图像,当添加扰动时,其预测标签将变为另一个标签。因此,如果后门模型总是将图像预测为具有或不具有普遍扰动的相同标签,则该图像被认为是后门实例。同时,预测的标签被认为是目标标签。例如,图1中的标签Stop是目标标签,并且对应的图像携带触发器。

后门检测流程:

训练阶段的后门检测:如果训练数据集包含后门实例,防御者的目标是删除注入训练数据集中的后门实例。

推理阶段的后门检测:防御者的目标是检测输入图像是否携带触发器。

注:训练阶段:是神经网络在输入数据,通过数据和对应标签不断调整权重的过程,即生成模型的过程。

推理阶段:当网络训练完毕后(权重不更新),输入数据后神经网络对其进行处理(比如输入猫的图片,神经网络将图片分类为猫),即模型开始工作进行预测。
 

实验:介绍了所提出的方法在Fashion-MNIST [9],CIFAR-10 [10]和GTSRB [11]数据集上的防御性能。

后门模型在Fashion-MNIST [9]、CIFAR-10 [10]和GTSRB [11]上对干净图像的分类准确率分别为92.19%、92.77%和95.16%。在没有提出的防御方法的情况下,Fashion-MNIST [9],CIFAR-10 [10]和GTSRB [11]上的后门攻击成功率(BASR)分别为99.47%,99.77%和97.89%。

表II示出了在应用所提出的方法之后在三个数据集上的干净图像识别率、后门检测率和普遍扰动的强度。

我们评估了所提出的方法在触发透明度的值分别设置为50%、60%、70%和80%下的性能。实验结果表明,该方法能有效检测不同触发透明度设置的后门实例。

我们评估了所提出的方法在三种不同触发器大小下对抗后门攻击的性能。

进行了实验以将所提出的方法与STRIP [12]进行比较。

STRIP [12]的检测过程中,将来自不同类别的一组其他图像分别添加到输入图像中,以生成一组混合图像[12]。然后,STRIP利用熵来测量所有混合图像的预测标签的随机性[12]。干净图像的熵明显低于后门实例的熵。因此,熵越小,输入图像越有可能包含触发器[12]。

  • 23
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
卷积神经网络(Convolutional Neural Networks,CNN)是一种深度学习算法,被广泛应用于计算机视觉任务。针对麦田条锈病的检测,可以使用CNN通过对图像进行卷积和池化等操作,自动提取图像中的特征,从而实现条锈病的检测。 首先,我们需要收集一批带有条锈病特征和健康的小麦叶片图像作为训练集。这些图像应涵盖不同种类的条锈病、不同生长阶段的小麦叶片,并且具有不同的环境光照和角度。 接下来,我们可以使用已经预训练好的卷积神经网络模型(如VGG、ResNet等),将训练集中的小麦叶片图像输入到网络中,通过网络的前向传播过程,逐层提取图像的特征信息。通过定制的损失函数,我们可以根据训练集中每个图像的标签(健康/条锈病),来计算网络输出与标签之间的误差,并通过反向传播算法来优化网络参数,使得网络能够更准确地预测条锈病。 在训练过程中,需要进行数据增强操作,如图像旋转、平移、缩放等,以增加训练集的多样性和模型的鲁棒性。 完成训练后,我们需要一组测试集来评估模型的性能。将测试集的图像输入已训练好的CNN模型中,得到模型输出,与测试集标签进行对比,计算模型的准确率、召回率和F1值等指标,来评估模型的效果。 总结起来,通过应用卷积神经网络进行小麦条锈病检测,我们可以利用CNN自动提取图像特征,并通过训练集和测试集的评估,得到一个高效准确的检测模型。这种方法相比传统的手工特征提取方法,能更好地适应复杂多样的小麦叶片图像,并实现更高的检测精度。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值