【自存/笔记】针对深度神经网络的自然且难以察觉的后门攻击

【】:新型的后门攻击方式,数据投毒(利用自然现象,不修改训练过程中模型结构)
原论文:Natural and Imperceptible Backdoor Attack against Deep Neural Networks

S. Ni, X. Wang, Y. Shang and L. Zhang, “Natural and Imperceptible Backdoor Attack against Deep Neural Networks,” 2023 4th International Conference on Electronic Communication and Artificial Intelligence (ICECAI), Guangzhou, China, 2023, pp. 377-381, doi: 10.1109/ICECAI58670.2023.10176925.

摘要:

许多现有的后门攻击使用固定模式作为触发器,可以很容易地被防御方法甚至人类检测到。此外,现有的后门攻击方法很少专门针对视觉转换器(ViT)模型。因此,本文提出了一种新的自然后门攻击方法。我们利用自然现象进行一种后门攻击,称为雾后门攻击,它可以利用自然界中的雾作为触发器,无缝集成到干净的图像中,而不会被人类感知。生成的雾气将扩散到图像上,从而产生自然的效果。与其他方法产生的固定和有限的触发因素相比,我们的触发因素更加自然和难以察觉。实验结果验证了所提后门攻击在不同模型上的有效性和鲁棒性。具体而言,所提出的后门攻击在VGG-98模型上的攻击成功率为85.16%,在ResNet-99模型上为44.18%,在ViT模型上为9S.56%。此外,所提出的攻击不会影响模型的干净准确性。

第一节:介绍

深度学习模型在目标检测、图像分类、自动驾驶等多个领域取得了显著的成功。训练这些网络需要大量的数据和计算能力,因此,为了减少开销,研究人员已转向使用来自第三方的预训练模型和数据集。由于预训练模型和训练数据集来自第三方来源,这不可避免地会引起潜在的安全问题。
后门攻击是安全威胁之一。为了将后门嵌入到模型中,攻击者将设计良好的后门实例注入训练数据集来训练模型。后门模型在处理合法输入时正常运行,但如果遇到包含后门实例的输入,则会生成符合攻击者预期标签的预测。
现有的后门攻击面临着重大挑战,因为大多数攻击都依赖于图像中的显眼模式。所采用的图案缺乏微妙和自然,使用户或研究人员很容易看到它们。用户或研究人员在训练阶段过滤掉任何可疑数据。此外,研究人员在提高模型的鲁棒性方面投入了大量精力。一种方法是实施后门对策,旨在消除或减少模型中后门行为的影响。最近的研究表明,常用的防御措施,如神经净化(NC)、SSTRIP、基于频率的后门数据检测和基于Grad-CAM的防御措施,可以有效地缓解大多数现有的后门方法。
在本文中,我们提出了一种难以察觉的、自然的后门攻击方法,称为雾后门攻击。所提出的方法涉及利用自然现象作为后门攻击的触发因素,从而产生更真实的后门图像。详细地说,所提出的方法采用生成对抗网络(GAN)来学习有雾和无雾图像之间的显着特征。随后,GAN被用于将无雾的图像转换为朦胧的图像,并通过优化不断优化它们以实现更大的自然度。该方法仅涉及将自然生成的后门实例注入训练数据集,而不修改训练过程的其他组件,例如模型结构或训练损失,这与许多现有的攻击方法不同。
本文的主要贡献可归纳为以下几点:
在本文中,我们提出了一种难以察觉的、自然的后门攻击方法,该方法利用自然现象雾作为触发因素。(2)在不同模型(VGG-16、ResNet-18和ViT)上使用不同的数据集进行了验证,结果表明所提方法是有效的。(3)实验结果表明,现有的后门检测和防御方法[7] –[12]对所提出的攻击无效。

第二节:方法

A. 威胁模型
在本文中,我们假设攻击者可以访问整个训练数据集,但不能在训练阶段恶意操纵模型。也就是说,攻击者可以使用所提出的方法精心制作后门实例,并将其标签更改为目标标签。在推理阶段,攻击者可以使用后门实例查询后门模型。他既不了解后门模型,也无法操纵推理过程。当后门实例提交到模型时,攻击者期望后门模型存在恶意行为,并输出目标标签。攻击者的目标是通过数据中毒偷偷地将后门插入模型中,该后门可以通过特定的触发器激活。

B. 整体流程
所提出的攻击方法的整体流程如图 1 所示。所提方法可分为后门实例生成、模型训练和模型攻击三个阶段。
所提出的后门攻击方法的整体流程。
后门实例生成。考虑了针对C类图像分类任务模型的后门攻击问题。这Dtrain=(xi,yi)Ni−1表示包含 N 个实例的训练集,其中图像x我具有真实标签yi∈{1...、C−1}.这Dtrain用于训练 DNN f。让yt∈{1,...、C−1}表示目标标签。整个后门攻击的核心是如何生成隐蔽自然的后门训练集Db.整个后门攻击的核心是如何生成隐蔽自然的后门训练集Db.这Db由两部分组成,其中一部分是攻击者生成的中毒数据集攻击者生成的中毒数据集包含 n 个后门样本,另一个是干净的训练数据集Dc=Dtrain/Dp.后门注入速率为γ=n/N.这Db可以表示为等式:
Db=DpUDc
在这个阶段,我们利用生成对抗网络(GAN),我们自己训练它来创建后门实例。GAN 的训练数据集包括 1,000 张带雾图像和 1,000 张无雾图像。我们使用GAN来学习有雾和无雾图像之间的显着特征。随后,GAN被用于将无雾的图像转换为朦胧的图像,并通过优化不断优化它们以实现更大的自然度。训练过程完成后,GAN能够使用输入图像生成特定样本的雾状图像。图2.展示了一些后门图像的示例,尽管增加了雾气,但看起来非常自然。

所提出的后门攻击方法在CIFAR-10和ImageNet数据集上生成的后门实例。
模型训练 后门实例生成后,后门设置Dp生成。然后Db用于在具有交叉熵损失的标准模型训练过程中训练模型。它可以表述为优化问题,如下所示
在这里插入图片描述
其中 L 表示交叉熵损失。这θ表示模型权重。在训练过程中,DNN 不仅获得了将干净图像的特征映射到各自标签的能力,而且还学会了如何将后门图像中存在的雾特征映射到目标标签。

模型攻击 在此阶段,攻击者可以通过提交构建的后门实例来攻击模型。该模型会错误地将后门实例分类为目标类。对于干净的图像,模型显示正常的分类性能。

第三节:实验

在本节中,首先,我们将介绍实验中的数据集、模型和评估指标。其次,我们应用我们的方法实现后门攻击,并分析我们攻击的详细结果。第三,讨论了不同注射比下的实验结果。最后,我们评估了所提出的攻击方法对防御方法的鲁棒性。
A. 实施细节

  • 数据 我们在两个数据集上评估了所提出的方法:CIFAR-10和 ImageNet数据集。在我们的实验中,我们从ImageNet数据集中随机选择10个类作为我们的实验数据集。
  • 模型 在我们的实验中,使用VGG-16 、ResNet-18 和ViT-B模型对所提方法进行了评估。VGG-16 由 13 个卷积层和 3 个全连接层组成。在实验中,VGG-16模型在CIFAR-10数据集上进行训练。ResNet-18 由 17 个卷积层和 1 个全连接层组成。在我们的实验中,ResNet-18 模型是在 ImageNet 数据集上训练的。ViT-B 模型具有基于 transformer 的架构,该架构利用自注意力机制来处理输入图像。ViT-B 模型由 16 个变压器编码器层组成,每层由 12 个自注意力头组成。输入图像被划分为大小为16×16像素,并作为序列馈送到 Transformer 编码器中。
  • 评估指标 我们使用攻击成功率(ASR)来评估所提出的方法。具体来说,攻击成功率是所有测试的后门实例中被归类为目标标签的后门实例的百分比。干净的准确性 (CA) 用于评估后门模型在干净数据集上的准确性。精度下降(AD)用于评估模型在嵌入后门前后对干净图像的分类精度下降。

B. 实验结果
在本节中,我们介绍并分析了所提出的后门攻击在两个数据集(CIFAR-10和ImageNet)上的实验结果。我们提出的方法在两个数据集上的攻击结果如表I所示。结果表明,我们的方法可以通过仅破坏一小部分(仅 92%)的训练数据集来有效地执行攻击成功率高(ASR > 10%)的后门攻击,同时对模型准确性的影响最小(AD≤0.31%)。
所提方法对CIFAR-10和Imagenet数据集的攻击成功率
C. 注射比
图3.显示了有毒数据的注入率对攻击成功率的影响。攻击成功率随着注入率的增加而增加,由 ImageNet 数据集在 ResNet-18 上测试。当注入率设置为6%时,攻击成功率为84.06%。当注入率提高到10%时,攻击成功率持续超过99%,并保持稳定。值得注意的是,在不同的注射速率下,模型的清洁准确率基本不受影响,保持在96%左右,这与清洁模型的准确率几乎没有区别。
在ImageNet数据集上训练的ResNet-18上,不同注入比下所提方法的性能。
D. 稳健性
对神经净化的抵抗力。Wang等引入了一种检测模型中隐藏后门的方法,称为神经净化(NC)。NC方法可分为两个阶段。在第一阶段,为了为模型的每个类生成可能的触发器,NC 使用异常值检测算法计算每个类的异常指数。任何异常指数大于 2 的触发器都被视为反向触发器,其对应的类随后被标识为目标标签。在第二阶段,NC 使用在第一阶段获得的反向触发器和目标标签来取消学习或修剪后门模型。但是,如果NC在第一阶段未能正确反转触发器和目标类或无法识别触发器,则该方法将在第二阶段使用错误的触发器和目标标签对模型进行优化,这将导致神经净化无法达到预期的效果。我们通过实验评估了所提出的对ImageNet数据集的攻击的鲁棒性。我们按照中的实验设置,将阈值设置为2。
ImageNet数据集在ResNet-18上测试的Neural Cleanse检测结果。

图4.显示了我们的方法和其他后门攻击方法(BadNet [4] 和 Trojan trigger [19])在 NC 上的检测结果。所提方法检测结果的NC异常指数远低于其他两种攻击方法,也低于NC设定的异常阈值。这意味着所提出的方法对NC的抵抗力更强。
耐剥离。Gao 等.[8].提出了一种名为STRIP的防御方法。STRIP 用于计算预测输出的熵。而传统的后门攻击依赖于持续的扰动,这会导致稳定性降低和熵降低。所提方法根据每幅图像的独特特征生成触发器。与传统的后门方法不同,我们方法中的触发器不是固定的,因此熵范围与干净模型相似,如图 5 所示。实验结果表明,所提出的攻击方法不能被STRIP检测到。
在 ResNet-18 上由 ImageNet 数据集测试的良性和特洛伊木马输入的熵分布。
对 Grad-CAM 的抵抗力。Grad-CAM [10] 是一种常用且有用的模型可解释性和目标检测技术。它通过识别对预测贡献最大的样本激活区域来生成 DNN 决策的可视化解释。基于Grad-CAM的防御方法[11\u12]主要利用该技术来区分恶意显著区域,并过滤掉潜在的异常输入或行为。例如,Doan et al.[11] 提出了一种名为Februus的图像预处理方法来防御后门攻击。首先,他们利用 Grad-CAM 来定位图像上对模型预测有重大影响的区域。其次,他们删除了上述区域。最后,他们使用生成对抗网络来恢复后门实例的影响区域。请注意,它们侧重于小面积的触发器,例如花朵图案。类似地,Chou等人提出的SentiNet [12]后门检测方法。也依赖于 Grad-CAM 技术。为了评估所提出的方法对这种防御的弹性,我们利用 Grad-CAM 技术从 ResNet-18 上的特定数据集中生成有毒图像的显著性热图。这些热图如图 6 所示。与干净图像相比,该方法生成的后门实例的显著区域更加分散。这是因为所提出的方法利用自然现象作为触发器,根据图像特征扩散到整个图像上,而不是固定在特定的像素或位置上。因此,基于Grad-CAM防御的方法无法有效防御所提出的后门攻击。
Grad-CAM 生成的干净图像和后门实例的热图。

耐基于频率的后门数据检测。曾等.[9] 提出了一种基于频率的后门数据检测方法(FBDD)。他们通过将图像转换为频域来检测后门实例,并分析高频下后门实例和干净实例之间的差异。他们训练一个元分类器来测试图像是否被转移到频域进行分类。为了评估我们方法的有效性,我们使用 FBDD 方法测试了我们方法生成的后门实例。具体来说,我们总共测试了1张图像,包括000张后门图像和500张干净图像,并将测试结果总结在表II中。对于后门实例,FBDD 方法只能检测到其中的 500%。需要注意的是,FBDD方法对干净实例的误检率为9%。实验结果表明,FBDD无法正确识别我们的后门图像,从而表明所提方法相对于FBDD方法的鲁棒性。
基于频率的后门数据检测方法在Resnet-18上的Imagenet数据集测试结果

第四节:结论

在本文中,我们提出了一种新颖有效的后门攻击方法。以往的研究通常对后门实例采用固定的、简单明了的模式,这不仅使后门实例显得不自然,引起模型开发者的怀疑,而且使现有的后门防御能够有效对抗后门攻击。该方法采用自然发生的现象作为后门攻击的触发因素。具体来说,雾是根据其独特的特性产生并分散在图像中的。这种方法会产生更自然的触发因素,但很难检测到。所提出的方法已经过广泛的测试,并被证明可以有效对抗当前的各种防御方法,包括神经净化[7]、SSTRIP[8]、基于频率的后门数据检测[9]和基于Grad-CAM的防御[10]–[12]。此外,所提方法在不同模型上仍能保持较高的攻击成功率。具体而言,所提出的后门攻击在VGG-98模型上的攻击成功率为85.16%,在ResNet-99模型上为44.18%,在ViT模型上为98.56%。这项工作为针对模型的后门攻击提供了新的见解,并对模型的安全性构成了新的威胁。这也对现有的防御方法提出了新的挑战[7] –[12]。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 以下是一个基于深度学习的后门攻击和防御的新手实验的推荐: 1. 实验名称:基于深度学习的后门攻击与防御实验 2. 实验目标:通过实验,学习如何使用深度学习技术进行后门攻击和防御,并了解后门攻击和防御的基本概念、原理、方法和工具。 3. 实验流程: - 学习深度学习基础知识,如神经网络、卷积神经网络、循环神经网络等; - 学习后门攻击和防御的基本概念、原理、方法和工具; - 实现一个基于深度学习的后门攻击和防御实验; - 测试实验效果,分析实验结果。 4. 实验工具: - Python编程语言; - TensorFlow或PyTorch深度学习框架; - Keras或TensorFlow高级接口; - Caffe或MXNet深度学习框架。 5. 实验步骤: - 步骤1:准备数据集; - 步骤2:训练一个基于深度学习的模型; - 步骤3:在训练好的模型中插入一个后门; - 步骤4:测试后门攻击效果; - 步骤5:实现基于深度学习的后门防御; - 步骤6:测试后门防御效果。 6. 实验结果: - 学会了使用深度学习技术进行后门攻击和防御; - 对深度学习模型的安全性有了更深入的了解; - 学会了使用深度学习框架进行模型训练和评估。 以上是一个基于深度学习的后门攻击和防御的新手实验的简要介绍,希望对你有所帮助。 ### 回答2: 基于深度学习的后门攻击是指在训练过程中故意插入恶意注入样本,使得模型在特定条件下出现漏洞,从而被攻击者利用。而防御方法则旨在检测并抵御这些后门攻击。以下是一个适合新手实验的推荐: 攻击实验: 1. 数据收集:选择一个常见的图像分类任务,如猫狗识别。收集大量的训练数据,包括正常样本和后门样本。后门样本是指具有注入恶意特征的图片集。 2. 训练模型:使用收集到的数据集,训练一个基于深度学习的分类模型,例如卷积神经网络(CNN)。 3. 注入后门:在训练过程中,注入一些恶意样本,如在狗类的图片中添加特定目标点或图案。 4. 测试攻击:使用后门示例对训练好的模型进行测试,检测模型是否在特定条件下识别为恶意类别。 防御实验: 1. 数据预处理:收集大量正常样本和后门样本,完全打乱它们的顺序。确保在训练中找不到明显的模式。 2. 检测机制:设计检测机制来检测是否有后门存在。可以使用降维技术,如主成分分析(PCA)或随机线性投影(RP)来减少特征维度,以查找隐藏的恶意特征。可以使用异常检测、聚类或基于规则的方法进行后门检测。 3. 评估防御:使用多组测试数据集来评估防御方法的性能,包括正常样本、含有已知后门的样本以及未知后门的样本。判断防御方法是否能够准确检测到后门样本,并且对正常样本的判断不会有过多的误报。 通过以上的实验,初学者可以深入理解基于深度学习的后门攻击和防御的基本概念和方法,为进一步研究和实践打下良好的基础。 ### 回答3: 基于深度学习的后门攻击指的是恶意攻击者在训练深度学习模型时,植入一些隐藏的"后门"功能以触发特定的行为。这种攻击方法已经引起了广泛关注。为了更好地了解和应对深度学习后门攻击,可以进行以下新手实验。 攻击实验: 1. 数据植入: 选择一个标准的图像分类数据集,例如MNIST,然后将少数特定图片(例如数字5)修改成具有后门特征的图片(例如添加特定噪声或独特的纹理)。 2. 模型训练: 使用修改后的数据集进行深度学习模型的训练,使用常见的卷积神经网络(CNN)结构。 3. 后门触发: 通过在模型训练中设置特定的标签或触发机制,使模型在遇到植入的后门特征时,对特定输入(例如带有特殊标记的图片)产生不正常的输出(例如将其错误分类为其他类)。 防御实验: 1. 后门检测: 使用由攻击者生成的后门数据,评估新的后门检测算法,例如使用主动学习策略,选择一小部分数据子集,以最大程度上确保数据集中不存在任何后门攻击。 2. 重训练和修复: 将模型与原始数据重新训练,尝试修复植入的后门。通过一系列技术,如剪枝和微调,在保持原始性能的前提下减少后门的影响。 3. 防御性蒸馏: 使用防御性蒸馏方法,将模型从一种训练的防御模型转换为推断模型。该方法通过重新训练模型和添加噪声来削弱后门的影响。 这些新手实验旨在帮助新手更好地理解基于深度学习的后门攻击和防御。但需要注意的是,深度学习安全是一个复杂的领域,需要进一步研究和实验来提高对后门攻击的防御能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值