论文笔记（3）-GhostEncoder: Stealthy Backdoor Attacks with Dynamic Triggers to Pre-trained Encoders in ……

誓要当码农

已于 2024-09-12 22:14:39 修改

阅读量688

点赞数 27

分类专栏：深度学习安全：后门攻击文章标签：论文阅读

于 2024-08-22 23:59:15 首次发布

本文链接：https://blog.csdn.net/Barry_12138/article/details/141440069

版权

深度学习安全：后门攻击专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在阅读文献的过程中记录一下，主要是帮助自己理清读文章的思路。橙色字体是我对文中内容的一些零星理解和小结

论文名称：GhostEncoder: Stealthy Backdoor Attacks with Dynamic Triggers to Pre-trained Encoders in Self-supervised Learning

发表期刊：COMPUTERS & SECURITY（SCI 1区）

Abstract

在计算机视觉领域，自我监督学习(SSL)涉及到使用大量未标记的图像来训练预训练的图像编码器。预训练的图像编码器可以作为特征提取器，便于构建下游分类器用于各种任务。

然而，SSL的使用导致了与各种后门攻击相关的安全研究的增加。目前，用于SSL后门攻击的触发器模式大多是可见的或静态的(与样本无关)，这使得后门不那么隐蔽，并显著影响攻击性能。

在这项工作中，我们提出了GhostEncoder，这是第一个针对SSL的动态不可见后门攻击。与现有的使用可见或静态触发模式的SSL后门攻击不同，GhostEncoder利用图像隐写技术将隐藏信息编码为良性图像并生成后门样本。然后，我们在操作数据集上微调预训练的图像编码器以注入后门，使构建在后门编码器上的下游分类器能够继承目标下游任务的后门行为。我们在三个下游任务上评估了GhostEncoder，结果表明GhostEncoder在图像上提供了实际的隐身性，并在不影响其效用的情况下以高攻击成功率欺骗受害者模型。

此外，GhostEncoder承受最先进的防御，包括STRIP, STRIP- CI和sSSL- cleanse。

1.Introduction

自监督学习(Self-supervised learning, SSL)是机器学习中的一种新兴范例，它不仅减少了对标记数据的依赖，而且通过引入操纵模型预测的挑战来增强对抗性鲁棒性[1,2,3,4,5]。然而，SSL的性能严重依赖于大量未标记的数据，这增加了相关的计算成本。普通用户倾向于采用在线提供的第三方预训练编码器来缓解此问题。然而，培训过程的不透明性带来了新的安全威胁。后门攻击[6]代表了深度神经网络(dnn)训练中的一种威胁，涉及通过污染训练样本子集来恶意操纵预测行为。攻击者通过将选择的模式(称为后门触发器)嵌入到图像中，创建一个后门训练集，用这个训练集训练模型来植入隐藏的后门[7,8,9]。当触发器嵌入到输入时，后门模型将暗中改变对目标标签的预测，同时保持良性样本的正常行为。

在SSL中，预训练编码器被用作下游分类器的特征提取器。然而，获得完全可信的编码器是一个极具挑战性的问题。如图1所示，

一种形式的攻击者涉及一个不受信任的服务提供者，该服务提供者将后门注入其预训练的编码器中，这些编码器随后被提供给用户，以便在下游任务中进行微调。因此，后门在攻击者的目标下游任务中变得活跃，而非目标下游任务的性能不受影响。

恶意第三方构成了另一种类型的攻击者。他们下载未受污染的图像编码器，注入后门，然后在GitHub、Hugging Face和Model Zoo等开源平台上发布受感染的编码器，这使得毫无戒心的受害者可以下载这些编码器。特别是，Liu等人[10]引入了一种方法，该方法涉及修改模型权重，将后门注入预训练的编码器中，将触发模式与来自目标类表示空间的参考输入相关联。此外，存在基于毒物的攻击方法，假设对手可以污染一小部分训练数据而不对训练过程施加任何控制。Saha等[11]提出了基于毒素的SSL后门攻击。新的方法也采用了这种基于毒药的攻击策略[12]，尽管其改变仅限于触发器。

然而，在这些现有的后门攻击中使用的触发模式的隐藏有效性是有限的，因为它们的后门触发器是样本不可知的。（样本不可知，表示这些触发器的存在和效果不受具体训练样本内容的影响，而是通过某种隐蔽机制在模型中被激活）这意味着不同的后门样本包含相同的触发器，而不管使用哪种触发器模式。由于触发器是样本不可知的，防御者可以很容易地根据不同后门样本之间的共享行为重构或检测到后门触发器，使得后门很容易被当前的防御措施减轻或消除。例如，在监督场景下，STRIP[13]可以有效防御基于补丁的后门攻击，这些攻击具有固定的触发器。然而，我们观察到它在自我监督场景中的有效性有限。然后揭示了STRIP在自监督环境下失效的原因，并提出了一种新的防御方法——STRIP- Cl。实验表明，STRIP-Cl可以显著缓解基于补丁型触发器的后门攻击。

（STRIP通过策略性地修改输入样本，旨在使攻击者注入的后门触发条件难以满足，从而降低模型的后门影响）

在这项工作中，我们提出了一种新的动态隐蔽后门攻击SSL，称为GhostEncoder，它可以逃避所有现有的防御。GhostEncoder利用特定于单个样本的动态后门触发器，导致不同后门样本的不同触发器。重要的是，扰动被精心设计成人类感知不到的全局。受基于DNN的图像隐写术的启发[14,15,16]，我们使用预训练的编码器-解码器网络将攻击者指定的字符串编码为良性图像。这个编码过程产生了样本特定的不可见的加性噪声，作为后门触发器。？？？然后，触发器被无缝嵌入到干净的图像中，从而产生后门图像。随后，干净的编码器经历微调，以纳入后门。这是通过使后门图像更接近特征空间中下游任务的目标类的参考输入来实现的。这使模型能够在触发器和目标类之间建立连接，促进有效的后门学习。

我们在两个不同的预训练数据集上对GhostEncoder进行了全面的评估，跨越三个不同的下游任务。实验结果表明，GhostEncoder实现了较高的攻击成功率(ASR)，同时最大限度地减少了对下游分类器精度的影响。值得注意的是，在CIFAR10上微调干净图像编码器，在STL10上构建后门下游分类器的场景中，GhostEncoder获得了令人印象深刻的96.57%的ASR。这一成功归功于GhostEncoder引入的动态和独特的触发模式，它违背了某些现有防御机制的潜在假设，这些机制预计攻击者会使用固定的触发模式。因此，GhostEncoder毫不费力地规避这样的防御，包括我们自己的强大的防御建议，STRIP-Cl。此外，我们研究了GhostEncoder针对两种当代最先进的防御方法的有效性，即DECREE[17]和SSL - cleanse[18]。虽然这些防御展示了从后门图像中恢复触发器的能力，并提供了一定程度的抵御攻击的弹性，但它们的成功依赖于攻击者采用一致的触发模式的前提。相比之下，GhostEncoder的利用全局，样本特定的扰动使得这些防御在对抗其动态攻击策略无效。

1.1. Contribution

我们的主要贡献总结如下：

我们提出了GhostEncoder，这是第一个针对SSL的动态不可见后门攻击，显著增强了攻击的鲁棒性。
我们研究了自监督场景下STRIP失效的原因，并提出了一种新的STRIP- CL增强方法。提高了STRIP方法的防御能力，扩展了STRIP方法的防御范围，有效地抵御了利用补丁型触发模式的后门攻击。
我们在多个上游数据集和多个下游任务上系统地评估了GhostEncoder，以证明攻击的有效性。
我们探讨了三种防御机制，即SSL-cleanse和DECREE，以减轻GhostEncoder的影响。然而，我们的实验结果强调需要新的防御方法来有效地对抗GhostEncoder。

2. Preliminaries

2.1. Image Steganography

图像隐写术是一种复杂的方法，涉及将机密数据隐藏在图像中，旨在保持对于观察者的隐蔽性，同时最大限度地减少对原始图像的任何可识别的改变。可隐藏的信息量通常用比特每像素(bpp)来量化，bpp值越低，隐藏数据的水平就越低，从而降低了被检测到的风险。然而，尽管做出了这些努力，先进的统计分析和检测技术仍有可能发现这些隐蔽的信息。为了应对这一挑战，研究重点已经转向利用深度神经网络(DNNs)作为解决方案。dnn提供了更高的嵌入能力和增强的安全措施来抵消这些漏洞。

在他们的工作中，作者提出了一种使用DNNs进行图像隐写的新方法[14]。他们的方法需要训练两个相互连接的网络:一个隐藏网络和一个显示网络，它们共同促进了在同等维度的其他图像中嵌入和提取全尺寸彩色图像。隐藏网络的工作原理是，将掩蔽图像和变换后的秘密图像作为输入，随后生成一个容器图像。为了准备秘密图像进行处理，需要执行预网络操作，其中包括根据需要调整图像的大小，并将其基于颜色的像素转换为更合适的特征表示，例如边缘。相反，显示网络负责解码容器图像，揭示隐藏的秘密图像。

在训练过程中，作者最小化了掩护图像和秘密图像之间的以下误差项以进行重建：

其中c和s表示覆盖图像和秘密图像，c'和s'表示重建图像，β是平衡每个误差项重要性的权重。值得注意的是，误差项∥c−c′∥不适用于Reveal Network的权重，保证了容器图像的信息不影响秘密图像的提取。????

为了防止网络完全依赖LSBs，在训练过程中，在容器图像中加入少量的噪声。这种噪声偶尔会翻转LSBs，阻止它们成为重建秘密图像的唯一载体。该方法扩展了传统隐写方法的原理，利用深度神经网络的能力将秘密图像的表示分布在载体图像的多个比特上。通过这样做，该方法超越了传统LSBs操作的限制，实现了更大的嵌入容量。

（LSBs指的是“Least Significant Bits”，即“最低有效位”。在数字图像处理中，LSBs通常用于图像隐写术中，通过将信息嵌入到图像像素的最低有效位来隐藏数据，这样做对图像的视觉影响最小）

2.2. Self-supervised Learning

SSL已经成为机器学习和计算机视觉领域的一种流行方法，因为它允许从未标记的数据中学习表示。通过学习预测数据中的某些属性或关系，模型能够捕获有价值且有意义的表示，这些表示随后可用于各种下游任务。SSL管道通常由两个阶段组成:预训练图像编码器和构造下游分类器，然后对其进行微调。

在众多方法中，对比学习已经表现出了显著的性能，如MoCo[19]、SimCLR[4]、SimCLRv2[20]、CLIP[21]等。对比学习通过对比语义相似(积极)和不相似(消极)的样本来实现这一点。该方法通过对模型架构和对比损失函数的精心设计，保证了正相关对的表示在表示空间中被拉近，而负相关对的表示被推得更远，从而产生类似聚类的效果。值得注意的是，Chen等人在2020年引入的SimCLR[4]是一种突出的方法，它采用对比学习来获得不需要手动注释的鲁棒视觉表示。其主要目标是最大化同一样本的不同视角之间的一致性，同时最小化不同样本视角之间的一致性。

SimCLR采用两步训练过程，包括数据增强和对比损失优化。在第一步中，SimCLR应用强大的数据增强技术，如随机裁剪、颜色失真和高斯模糊，来创建每个输入样本的不同视图。这些扩展的观点对学习是有益的。在第二步中，SimCLR利用对比损失函数来指导模型将正表示拉近，同时将负表示进一步分开。对比损失的计算取决于增强视图表示之间的余弦相似度。总体目标是最大化正对之间的相似性，同时最小化负对之间的相似性。

SimCLR中使用的对比损失公式如下：

其中 $\prod_{}^{}(k\neq i)\in\left \{ 0,1 \right \}$ 是在k∈I时取值为1的指示函数。 $z_i$ 和 $z_j$ 表示正对， $z_k$ 表示负对， $\tau$ 是控制分布清晰度的温度参数。

SimCLR在各种计算机视觉任务(包括图像分类、目标检测和图像分割)中显示了令人鼓舞的结果。通过其在获取全面和独特的视觉表现方面的娴熟，SimCLR已经确立了自己在该领域的领导者地位。它在基准数据集上达到了最先进的性能，强调了它产生有影响力和有区别的视觉特征的能力，这证明了这一点。

3. Detecting Backdoor Attack without Pre-training Dataset

目前的防御机制已被证明在减轻或消除现有的SSL后门攻击方面是有效的，这主要是由于它们侧重于静态触发器。然而，当这些防御方法受到限制，无法利用与预训练数据集有关的任何知识时，它们的有效性面临着重大挑战。仅基于来自下游数据集的信息来检测和防御此类攻击是一项艰巨的挑战。

在监督学习中，STRIP[13]通过评估将输入样本叠加到随机选择的一组图像上是否会导致预测类标签的熵增加来运行。如果熵显著增加，表明类标签变得更难预测，则将输入分类为正常。相反，如果熵仍然很低，则表明输入图像中存在触发器。STRIP已经证明了其在防范以补丁型触发模式为特征的后门攻击方面的有效性。我们直接利用STRIP检测SSL下游任务上的后门样本。但是，当应用于SSL场景时，其有效性会降低。本节全面分析了在SSL场景中导致STRIP技术效率降低的因素。为了解决这些限制，我们提出了一种名为STRIP-Cl的先进防御机制。通过实证评估，我们展示了两种方法对BadEncoder[10]和SSL-Backdoor[11]的防御能力。

防御设置：防御者的目标是检测和减少后门样本，同时尽量减少对整体模型性能的影响。我们假设防御者可以访问可疑的编码器，并从下游数据集中获得输入图像的特征向量来训练下游分类器。防御者在不知道触发器或目标类别以及无法访问可靠数据或图像标签的限制下操作，面临着防御这些攻击的挑战。我们的主要重点是调查利用静态补丁类型触发模式的后门攻击。

3.1. STRIP and STRIP-CL

3.1.1. Algorithm overview

假设后门触发器是输入不可知的，[13]中提出的防御旨在在恶意样本被馈送到下游分类器之前检测它们。为了实现这一点，该方法通过叠加各种干净图像模式并观察其预测的随机性来过滤可疑图像。前景和背景图像的叠加权值相等，预测的随机性通过熵来表示。熵越小，可疑图像为恶意图像的可能性就越高。

$\star$ $\star$ $\star$ 然而，现有的用于监督学习的解决方案在检测预训练编码器中的后门时面临挑战，因为它们需要分类标签。为了解决这一限制，我们提出了STRIP的增强版本，称为STRIP- CL，专门为对比学习量身定制。当使用具有较强特征提取能力的编码器时，STRIP中图像模式的叠加对干净图像没有明显影响（还是在描述熵无法作为SSL场景下的分类依据）。结果，干净样本和恶意样本的熵分布重叠，使得它们难以区分。STRIP-CL观察最大预测分布以确定输入图像是否为恶意图像。具体来说，我们使用硬标签生成STRIP-Cl的分布图???，在将多个干净图像叠加到每个输入图像上后，计算输入图像分类器的预测结果。某一类预测的最高计数作为横坐标(x)，而最大计数x的样本与总数的比率作为纵坐标(y)。我们根据横坐标阈值将图像分类为恶意图像。与STRIP相比，我们提出的方法更适合于在自监督场景中检测样本不可知触发器。？？？（自监督学习中，硬标签的生成通常是通过自监督任务获得的特征表示结合有标签数据进行微调来实现的）

3.1.2. Defense assessment

图2:检测BadEncoder和SSL-Backdoor攻击的最大预测分布图Strip和Strip- cl。
(a)Strip防御BadEncoder的最大预测分布;
(b) Strip-Cl防御BadEncoder的最大预测分布;
(c)Strip防御ssl -backdoor的最大预测分布;
(d) Strip-Cl防御SSL-Backdoor的最大预测分布。

图2显示了STRIP和STRIP- CL防御BadEncoder和SSL-Backdoor的最大预测分布图。在本实验中，BadEncoder和SSLBackdoor都利用上游数据集CIFAR10和下游数据集STL10来构建目标模型。SSL-Backdoor的成功率一般在33.1%左右[18]，为了提高成功率，我们将其中毒率提高到5%。在达到82%的攻击成功率后，我们应用了防御方法。

从图2a和2c可以看出，原来的STRIP无法防御BadEncoder和SSL-Backdoor攻击，因为这两种攻击产生的后门样本分布与干净样本的分布重叠，很难通过简单的阈值设置来区分它们。相反，图2b和图2d表明，干净样本往往位于分布图的左侧，紧跟正态分布，而恶意样本主要位于分布图的最右侧。因此，STRIP-Cl可以有效地从BadEncoder和SSL-Backdoor的后门训练集中过滤和去除后门样本，显著降低了它们的攻击成功率。我们发现有必要适当调整图像叠加的权重。在这里，我们选择了0.9的权重值，因为这个设置会导致分布地图中更明显的分类边界。

3.2. Why did the STRIP defense fail

STRIP[13]的核心概念是在将样本输入模型之前对样本进行过滤，以检测后门触发器的存在。STRIP以熵作为滤波的基础，通过计算图像分类预测的熵来判断图像是否可疑。具体来说，STRIP将干扰叠加在输入图像上。如果输入是后门图像，则由于触发器的存在，分类结果将是高度确定的，导致熵非常低。相反，如果输入是干净的图像，则熵将相对较高。STRIP检测可疑图像通过设置熵阈值，允许它区分后门和干净的图像。

在监督学习中，由于有标签信息的参与，模型通过学习这些标签来执行分类任务，使它们能够获得更广义的特征。这些模型学习的决策边界往往更清晰，确保对特定图像的预测不会明显偏离其他图像。因此，软标签的分布变得更加分散，而干净图像的熵相对较高。

（深度学习中的软标签指的是一种标签形式，它包含了关于每个类别的概率分布信息，使得每个类别都有一个介于0和1之间的概率值）

然而，SSL中缺少标记数据，模型必须辨别触发器和样本之间的关系来执行分类任务。这可能导致更模糊的决策边界、更不分散的软标签分布，并因此导致干净样本的更低熵。这导致后门图像和干净图像之间的熵分布图的阈值边界不清晰。在这种情况下，STRIP的过滤机制可能会错误地将图像视为非可疑图像，从而导致对后门样本的检测不准确。因此，在SSL环境中，STRIP的防御性能显著降低。

相比之下，我们提出的检测框架STRIP-Cl侧重于硬标签的分布。我们不使用熵分布，而是使用硬标签的最大预测分布来进行样本检测。熵对硬标签的影响很小，可以更精确地反映分类器对输入图像的判断。因此，STRIP-Cl增强了STRIP的防御能力，拓宽了它的防御范围，提高了模型的安全性。

4. Methodology

我们的攻击计划如下。表1给出了符号的定义。

4.1. Threat Model

我们只考虑对视觉编码器的后门攻击。攻击者的目的是将后门注入到预先训练的图像编码器中，使基于后门图像编码器构建的下游分类器，对于包含攻击者选择的触发器的输入，能够预测出攻击者选择的预测结果。

攻击者的能力。我们的工作考虑了两种可能的攻击者:1)不可信的服务提供商，他们可能向他们预先训练的图像编码器中注入后门，并将其提供给下游用户，2)恶意的第三方，他们向服务提供商预先训练的图像编码器中注入后门，并将其发布在互联网上，供下游用户下载和使用。攻击者可以访问用于训练水印生成器的水印数据集、干净的预训练图像编码器、未标记的图像(称为阴影数据集)以及称为参考输入的每对(目标下游任务、目标类)的一些图像。然而，攻击者不能访问用于构建下游分类器的下游数据集或影响下游分类器的训练过程。

攻击者的目标。一般来说，后门攻击者意图通过数据中毒在DNNs中嵌入隐藏的后门。隐藏的后门将被攻击者指定的触发器激活，即，包含触发器的图像的预测将是目标标签，不管它的基本事实标签是什么。特别是，攻击者有三个主要目标，包括有效性、隐蔽性和可持续性。有效性要求当后门触发器出现时，被攻击DNNs的预测应该是目标标签，并且在良性测试样本上的性能不会显著降低。隐蔽性要求所采用的触发器应该是隐蔽的，并且对于人眼是不可见的。可持续性要求攻击在一些常见的后门防御下仍然有效。

4.2. The Proposed Attack

在这一节中，我们将阐明我们提出的方法，GhostEncoder。在深入研究特定于样本的触发器的生成之前，我们简要概述一下GhostEncoder过程。我们的方法被公式化为下面的优化问题。

形式上，为了达到前面提到的有效性和实用性的目标，我们提出修改干净图像编码器 $e$ ，得到一个后门编码器 $e^{'}$ 。对于每个(目标下游任务，目标类)对 $\left ( T_i,C_i \right )$ ，攻击者从目标类 $C_i$ 中选择一组参考输入 $R_i=\left \{ x_{i1}, x_{i2},\cdots ,x_{ir_{i}}\right \}$ ，其中 $p_x$ 是为每个输入 $x$ 生成的触发器。 $x\bigoplus p_x$ 为后门输入。我们建议分别使用效率损失和效用损失来量化效率和效用目标。我们的有效性损失由以下两个公式组成：

其中 $s(,)$ 度量两个特征向量之间的相似性， $\left | D_s \right |$ 表示阴影数据集中的输入个数，我们的有效性损失是 $L_0+\lambda _{1}\cdot L_1$ 两项的加权和，其中 $\lambda_1$ 是平衡两项的超参数。

有效性损失实现了两个目标:1)后门编码器 $e^{'}$ 在阴影数据集中为参考输入和嵌入触发器的后门输入生成相似的特征向量。（没有固定真实标签，只能通过特征向量的相似程度实现训练效果）2)后门图像编码器 $e^{'}$ 和干净图像编码器 $e$ 为参考输入生成相似的特征向量。

效用损失的主要目标是对于干净的输入保持下游分类器的准确性，这些分类器依赖于我们的后门图像编码器。这需要确保后门图像编码器和干净图像编码器为干净输入生成相似的特征向量。为了实现这一目标，我们定义了效用损失：

在定义了三个损耗项L0、L1和L2之后，我们基于这些损耗项解决了后门图像编码器 $e^{'}$ 的优化问题。

两个超参数λ1， λ2被用来平衡这些损失项。它们对后门编码器的影响将在评估过程中进行彻底检查。

管道:在这项工作中，我们提出了一种新的动态不可见后门攻击，在自监督学习的背景下，命名为GhostEncoder。图3提供了GhostEncoder的概述。

左侧为后门图像的生成阶段。在这里，我们使用一个额外的水印编码器，表示为 $e^i$ ，将隐藏信息嵌入到后门图像中，生成触发器。该编码器来自使用水印数据集预训练的编码器-解码器网络。在图3的右侧，我们给出了后门注入和下游任务推理的阶段。在后门图像中获得的嵌入触发器作为影子数据集，而参考输入由从web上的目标类收集的图像组成。后门注入阶段的目标是从一个干净的图像编码器e构建一个后门图像编码器e '，达到有效性、不可见性和鲁棒性的目标。在推理阶段，基于我们的后门图像编码器构建的下游分类器将预测任何包含相应触发器的输入为目标类，而不会影响非目标下游任务的正常性能。

4.3. How to Generate Trigger

受基于DNN的图像隐写术的启发，ISSBA[22]使用预训练的编码器将指定字符串编码为良性图像作为后门图像。然而，这种方法在有监督的场景中运行，需要更多的注释数据，并利用目标标签信息作为隐写字符串的内容。相比之下，我们的方法是在自我监督的设置中实现的，将自己从标签约束中解放出来，并且不限制字符串的特定内容。它只要求后门图像中的编码信息一致。

（ISSBA 指的是 Image-to-Image Self-Supervised Learning with a Bayesian Approach，这是一个图像到图像自监督学习的框架。它通过自监督的方法，从无标签的图像数据中学习有用的特征表示。具体来说，ISSBA结合了贝叶斯方法和自监督学习的技术，通过推断图像数据的潜在结构来增强模型的性能。这种方法能够在图像处理和理解任务中显著提高效果，尤其是在数据标注稀缺的情况下）

生成特定于示例的触发器。我们以预训练的编码器-解码器网络为例，以生成特定于样本的触发器。水印编码器的输出根据输入图像而变化，产生不可见的附加噪声作为特定于样本的触发器。如图4所示，我们通过向干净的数据集添加水印来创建后门数据集。编码器首先取良性图像和水印信息生成残差图像(即对应的触发器)。将该残差图像叠加到良性图像上，就得到了编码后的图像。水印编码器和解码器在良性训练集(水印数据集)上进行联合训练。在整个训练过程中，一个统一的字符串作为隐写内容，训练水印编码器将其嵌入到图像中，同时最小化输入图像和编码图像之间的感知差异。另一方面，解码器学习从编码图像中恢复隐藏信息（使得隐写术（steganography）或信息隐藏技术中的隐藏数据能够被正确提取和还原）。使用这个训练有素的水印编码器，我们将特定于样本的触发器附加到输入图像中，生成后门图像。

5. Evaluation

5.1. Experimental Setup

5.1.1. Datasets

在这项工作中，我们使用了四个不同的图像数据集，即CIFAR10, STL10, GTSRB和SVHN，以便于综合评估。

CIFAR10:该数据集包括50,000张训练图像和10,000张测试图像，每张图像大小为32x32x3像素。这些图像被分为十个不同的类别。

STL10: STL10数据集包括5000个标记的训练图像和8000个标记的测试图像，包括大小为96x96x3像素的图像。它包含十个不同的类别，值得注意的是，还有另外100,000个未标记的图像可用。

GTSRB: GTSRB数据集包括分布在43个类别中的51,800张交通标志图像，分为39,200张训练图像和12,600张测试图像。

SVHN: SVHN数据集包含73,257张训练图像和26,032张测试图像，每个图像代表来自谷歌街景门牌号数据集的一个数字，所有图像的大小都是32x32x3像素。此外，数据集的特征是在感兴趣的数字附近有一些分散的数字，使其成为一个有噪声的数据集。

5.1.2. Parameter setting

在我们的实验中，我们使用CIFAR-10或STL-10作为预训练数据集，因为它们具有更大的图像容量和无噪声的特性。对于这两个预训练数据集，我们选择了ResNet-18[23]架构作为图像编码器的框架。在训练过程中，我们使用SimCLR[4]，并应用了一组增强算子，包括随机调整大小裁剪、水平翻转、颜色失真和随机灰度。我们使用Adam优化器进行1000次epoch的训练得到图像编码器。这个过程的实现是基于SimCLR12中公开可用的代码。（这一步得到的是干净编码器e，用于之后的后门注入）

在我们的方法中使用的触发器是由水印数据集训练的水印编码器生成的。水印编码器使用与StegaStamp一致的编码器-解码器网络配置进行训练[15]（StegaStamp 是一种隐写技术，旨在通过图像的像素值来隐藏和嵌入数据）。在该配置中，编码器网络采用U-Net[24]方式，解码器网络采用空间transformer网络[25]。训练包含四个损失项:L2残差正则化、LPIPS感知损失[26]以最小化感知失真、隐藏信息重建的交叉熵损失和感知失真损失。这些损失的比例因子分别设置为2.0、1.5、0.5和1.5。在训练过程中，我们同时使用Adam[27]优化器和SGD优化器，初始学习率分别设置为0.0001和0.001。在第15次和第20次之后，学习率衰减了0.1倍。利用生成的编码器创建后门图像以生成阴影数据集，该数据集由从预训练数据集中提取的50,000张图像组成。

后门注入阶段开始于攻击者选择目标下游任务/数据集和目标类别的假设。当上游数据集为CIFAR-10时，我们采用STL-10、GTSRB和SVHN作为下游数据集。在上游数据集STL-10的情况下，我们选择CIFAR-10、GTSRB和SVHN作为下游数据集。此外，“飞机”、“卡车”、“优先标志”和“数字1”分别被选为CIFAR-10、STL-10、GTSRB和SVHN数据集的目标类别。我们假设每个(目标下游任务，目标类别)对都有一个参考输入，通过使用后门下游分类器将获得的参考输入正确分类为目标类别来收集。我们对预训练的图像编码器进行微调，学习率为0.001，批处理大小为256，进行200次epoch，以注入后门，除非另有说明。除非特别指定，否则参数λ1和λ2默认为1。

给定一个使用预训练数据集预训练的图像编码器(带后门)，我们利用它作为下游任务的特征提取器。对于选定的数据集作为下游数据集，其训练数据训练下游分类器，而其测试数据评估分类器。具体来说，我们使用隐藏层大小为128的双层多层感知器(MLP)作为下游分类器，在训练过程中使用交叉熵损失函数和Adam优化器。此外，下游分类器训练500次，初始学习率为0.0001。除非另有说明，否则CIFAR-10作为默认的预训练数据集，STL-10作为默认的下游数据集。请注意，我们将STL-10数据集中的每个图像的大小调整为32×32×3，以保持与其他数据集的一致性。

5.1.3. Evaluation metrics

为了有效地评估攻击的性能，我们主要采用三个指标，即干净精度(CA)，后门精度(BA)和攻击成功率(ASR)，来评估我们针对分类模型的BadEncoder。其中，CA和BA分别表示基于干净编码器和后门编码器构建的下游分类器在下游干净测试数据集上的分类精度。ASR表示基于后门编码器构建的下游分类器预测相应目标类的嵌入触发器样本的比例。

此外，我们还引入了两个额外的指标进行补充评估：ASR-B和防御后攻击成功率(ASR-AD)。ASR-B测量由干净编码器构建的下游分类器识别为目标类的嵌入触发器的后门图像的百分比，反映攻击者未在预训练的图像编码器中注入后门时攻击的成功率。为了评估防御方法对攻击的鲁棒性，我们引入了ASR-AD。它量化带有嵌入式触发器的测试输入在经过Strip-Cl防御策略后被后门下游分类器准确预测为目标类的比例。

5.2. Effectiveness and Efficiency of Attack

如表2所示，我们在三个不同的下游数据集上评估BadEncoder和GhostEncoder，每个数据集都有两个预训练数据集。我们提供了不注入后门的预训练图像编码器的CA和ASR- B，以及GhostEncoder的BA, ASR和ASR- AD。总的来说，我们的GhostEncoder实现了以下几点:

高攻击成功率且不影响模型效用：通过实验，我们发现下游攻击的有效性受到水印强度的影响。根据下游数据集的分布情况，下游数据集的分布越接近预训练数据集，则对水印的要求越强。因此，我们分别为STL-10训练了一个鲁棒水印编码器，为GTSRB和SVHN训练了一个不太有效的水印编码器？？？？。

基于在三个不同的下游数据集上使用两个不同的预训练数据集获得的结果，GhostEncoder显示出较高的ASR。例如，当预训练数据集为CIFAR10，下游数据集为STL10时，GhostEncoder的ASR为96.57%。相比之下，未在预训练的图像编码器中注入后门，ASR-B仅为8.61%。BA相对于CA仅下降0.14% (CA: 76.14%， BA: 76.28%)。因此，我们的GhostEncoder在实现高ASR的同时保持了下游分类器的准确性。我们注意到当下游数据集为SVHN时，由于其类别不平衡，ASR-B相对较高，所选择的目标类别是最受欢迎的类别。

抵抗最先进的防御：ASR-AD代表了应用STRIP-Cl方法(在3.1节中介绍)进行防御的结果。它包括设置一个阈值来过滤掉有毒的数据集，从而产生过滤后的ASR-AD。如3.1节所述，阈值是通过选择特定类别的硬标签预测的最大计数作为x坐标并设置阈值来过滤掉有毒样本来确定的。根据表中ASR-AD列的结果，括号内的值表示阈值。这些结果表明我们的GhostEncoder可以抵抗STRIP-Cl防御。例如，当预训练数据集为CIFAR10，下游数据集为GTSRB时，GhostEncoder的防御成功率为65.05%，而不进行防御的ASR为65.19%，导致ASR仅下降0.14%。重要的是，在大多数情况下，ASR和防御成功率之间的差异在0.5%以内。因此，STRIP-Cl对削弱GhostEncoder的攻击效率影响最小。相反，BadEncoder的ASR在防御后显著降低。例如，当预训练数据集为CIFAR10，下游数据集为GTSRB时，其ASR从98.64%下降到14.5%，使得攻击几乎无效。在大多数情况下，STRIP-Cl能够完全防御BadEncoder。

（表中数据主要说明GhostEncoder的攻击效果好，能规避一些防御手段）

5.3. Hyperparameter Analysis

5.3.1. Impact of shadow dataset

阴影数据集可以通过其大小和分布来表征。因此，我们研究阴影数据集大小对GhostEncoder的影响。图5a显示了阴影数据集大小对GhostEncoder的影响。以STL10为目标下游数据集，我们观察到，当阴影数据集大小在预训练数据集的25%左右时，GhostEncoder的ASR达到了60%以上。当阴影数据集的大小超过预训练数据集的50%左右时，GhostEncoder的ASR高达96%，几乎接近阴影数据集大小等于预训练数据集时的性能，同时保持下游分类器的准确性。这表明我们为后门注入的数据集只需要来自预训练数据集的少量信息。

5.3.2. Impact of other parameters

我们的GhostEncoder使用公式5所描述的损失函数，它由三个损失项组成:L0, L1和L2。我们使用两个超参数λ1和λ2来计算加权损失。L1服务于有效性目标，实现后门攻击的高成功率;L2服务于效用目标，在显著扰动后保持较高的准确率，从而保持下游分类器的准确性。通过对参数λ1和λ2的控制，可以平衡摄动的精度和攻击的成功率。因此，我们研究了λ1和λ2对GhostEncoder的影响。图5b (λ2=1)和图5c (λ1=1)显示了结果。

最初，我们观察到当λ1和λ2超过一定阈值时，GhostEncoder获得了较高的攻击成功率并保持了分类精度。例如，当λ1设置为0.5时，GhostEncoder已经达到了96.18%的高ASR。此外，GhostEncoder在较小的λ1数值范围内表现出较高的灵敏度，而在较大的λ1数值范围内，即使达到10，攻击成功率也保持稳定。这种稳定性源于STL10数据集相对较小的训练集大小。λ2的分布与λ1相似，在较小的数值范围内表现出更高的灵敏度，在较大的数值范围内保持一致的ASR，没有波动或下降。我们将这种行为归因于阴影数据集的大小(与L2相关)，它大大超过了参考输入的数量。

5.4. Attack Stealthiness

图6展示了使用BadEncoder和我们的GhostEncoder攻击方法生成的后门图像。

在这里，我们展示了三个下游数据集的后门图像:STL10, GTSRB和SVHN，以及我们提出的GhostEncoder方法中使用的触发图像。BadEncoder的触发器由一个固定的10×10白色正方形组成，它位于图像的右下角。这个触发器是单一的，固定的，清晰可见的，缺乏有效的隐藏。相比之下，我们的GhostEncoder方法的后门图像中使用的触发器是特定于样本的，表现出非常高的隐秘性，并且人眼无法察觉。

5.5. Robustness to Defense

在这项工作中，我们研究了两种新兴的SSL防御:我们提出的Strip-Cl和SSL-Cleanse。通过实验，我们证明了我们的GhostEncoder攻击可以成功绕过这两种防御。

5.5.1. Defense of Strip-Cl

如图7所示，图7a和图7b分别展示了原始STRIP方法和我们提出的STRIP- cl方法对带有硬标签的GhostEncoder的最大预测分布图。从图中可以看出，无论使用STRIP还是STRIP- cl防御，GhostEncoder生成的后门样本和干净样本的分布都是高度重叠的。通过简单的阈值区分后门样本和干净样本变得具有挑战性。因此，这两种方法都不能有效地防御GhostEncoder。

（先升级防御方式，再证明自己的攻击方式可以绕过新旧两种防御手段）

5.5.2. Defense of SSL-Cleanse

SSL-Cleanse[18]可以防御针对SSL编码器的两种后门攻击:SSL- backdoor和ESTAS。SSL- backdoor和ESTAS都采用基于补丁的触发器添加，攻击者通过添加特定触发器来激活后门来修改一部分训练数据。SSL-Cleanse[18]利用聚类算法和反向识别技术检测后门攻击。通过对SSL编码器生成的样本进行聚类，可以识别出具有异常触发器的样本组。然后，通过反向模式识别技术，SSL-Cleanse[18]可以识别并删除这些触发器，将编码器恢复到没有后门的干净状态。

（ESTAS（Enhanced Steganography with Transform and Autoencoder Schemes）是一种隐写术（steganography）方法，旨在通过结合变换和自编码器技术来增强隐写性能）

然而，对于这项工作中提出的GhostEncoder攻击，它利用影响整个图像空间的全局扰动，触发器对每个像素都有影响，不像补丁触发器仅限于特定位置。这使得触发器的检测和去除更具挑战性，并且GhostEncoder的样本特异性使得很难将触发器识别为统一的模式，进一步阻碍了直接识别和消除。

在这项工作中，我们假设使用所提出的防御方法的反向工程攻击中使用的触发器是最佳的????，这意味着它们是来自我们的GhostEncoder技术的原始触发器。这些触发器用于减轻后门对我们生成的后门编码器的影响，从而产生优化的干净编码器。我们对模型进行了两轮优化，当上游数据集为CIFAR10时，我们对下游数据集STL10、GTSRB和SVHN的后门编码器进行了防御，获得了干净的触发器。表3给出了clean触发器在下游数据集上的测试结果。

很明显，SSL-cleanse[18]有效地降低了GhostEncoder的ASR。然而，它显著地损害了SSL编码器在正常输入上的分类性能。因此，这种防御方法对GhostEncoder没有意义。因此，SSL-cleanse[18]方法不能直接解决GhostEncoder攻击的全局摄动触发器。（可以降低攻击性，但是正常的模型功能也被降低）

为了证实上述分析，我们在应用ssl - clean防御前后分别对BadEncoder和GhostEncoder的后门编码器进行了测试。为此，我们使用t-SNE可视化来检查测试集中嵌入触发器的输入和干净输入的特征。我们的实验设置使用了上游预训练数据集CIFAR10和下游数据集STL10，如图8所示。

在BadEncoder的情况下(图8a,8b)，在防御之前，来自目标类的后门输入(黑色)和干净输入(红色)的簇在特征空间中表现出高度的接近性。然而，在防御之后，观察到后门输入的聚合显著减少，因为它们远离目标类。从表3的结果可以看出，GhostEncoder经过ssl - clean防御后，其BA大幅下降至24.05%。这种分类性能的下降导致了如图8d所示的无序和非聚类表示。

5.5.3. Other Defenses

除了上述防御之外，我们还研究了DECREE[17]，它可以检测模型中后门的存在。作者指出，在PL1-Norm约为0.23时，DECREE未能检测到SSL-Backdoor和CTRL[12]攻击。SSL-Backdoor检测失败的原因是其ASR低于预期(< 10%)，超出了预期ASR范围(> 99%)。与SSL-Backdoor和CorruptEncoder相比，我们的GhostEncoder采用了更多具有更高PL1-Norm的样本特定和不可见触发器。此外，GhostEncoder的ASR不在DECREE的预期范围内，使其无法被DECREE防御方法检测到。虽然法令可以检测到后门的存在，但它不能消除它们。因此，我们还探索了PatchSearch防御，它在训练阶段运行，并假设基于中毒的后门攻击。然而，这种防御并不符合我们在这项工作中的威胁模型，因为GhostEncoder使用基于权重修改的攻击方法。？？？？？

（PL1-Norm 是一种数学范数，用于衡量向量或矩阵的“大小”或“长度”，通常用于优化和机器学习领域。它是L1范数（也称为曼哈顿距离或绝对值范数）的一个变种，结合了L1范数和一个加权参数 pp 的概念）

6. Discussion

6.1. Insights from Experimental Observations

在第5.1.2节所述的参数设置下，我们训练了水印编码器，并观察到生成的水印的有效性在一定程度上受到训练过程随机性的影响。通过大量的实验，我们阐明了水印强度对下游数据集攻击性能的影响，并在这种影响与预训练和下游数据集之间数据分布的差异之间建立了联系。具体来说，我们发现当下游数据集的数据分布与预训练数据集的数据分布相似时，更有效的水印编码器更适合生成一定强度的水印触发模式。相反，在上游和下游数据集的数据分布存在显著差异的情况下，鲁棒性较差的编码器更擅长产生触发扰动。在这些见解的基础上，我们进行了实验，其中我们根据各种下游数据集的不同数据分布量身定制适合后门攻击的各自水印编码器的训练。

6.2. Other Settings in self-supervised analysis

现有的SSL后门攻击只有在使用基于补丁的样本识别触发器时才有效。为了更好地理解SSL中的后门攻击，我们将两种来自监督学习的现有攻击应用到我们的场景中：对抗性样本攻击SSAH[28]和基于中毒的ISSBA[22]。我们的对抗性样本攻击有两种设置:一种是遵循BadEncoder[10]的攻击过程，用于本工作中使用的Image-on-Image攻击，但将基于补丁的触发器生成的后门样本替换为对抗性样本;另一种是基于中毒的SSAH，其中将添加了全局触发器的中毒样本混合到上游编码器的干净训练集中。基于中毒的ISSBA与基于中毒的SSAH的攻击设置一致。然后我们评估从后门编码器训练的下游分类器的ASR。结果如表4所示。

从实验结果可以看出，对抗性样本攻击和针对预训练自监督编码器的投毒攻击很难成功。这些攻击在监督学习中可能是成功和隐蔽的，因为在攻击过程中有一个特定的目标标签提供了强烈的暗示。但是，SSL只考虑正对或负对，缺乏明显的特性(如基于补丁的触发器)。因此，对于这些样本触发器来说，在受害者图像和目标图像之间建立强相关性是具有挑战性的。

7. Related Work

7.1. Backdoor Attack

后门攻击是网络安全领域中一个快速发展和有前途的话题，它可以通过毒害dnn的训练过程对安全性产生不利影响。在监督学习领域，研究人员广泛探索了针对图像分类器的后门攻击。这些攻击包括向图像中注入补丁，也称为触发器。通过在训练期间用有毒样本增加干净的数据集，攻击者的目标是操纵模型的行为。该领域的著名作品，包括参考文献[6,7,29]，强调模型倾向于只在包含嵌入触发器的数据上激活后门效应。尽管在干净数据上的性能会受到影响，但在测试期间，使用有毒数据集训练的模型倾向于将带有触发器的图像错误地分类为攻击者预定义的目标类。虽然早期的研究，如[30]，专注于特定样本的后门攻击，但它们往往需要对训练损失和数据进行细致的控制，从而降低了它们的实际威胁水平。此外，触发模式的显著性，如[6]中可见的3x3白色正方形，使它们容易受到最先进方法所采用的防御机制的影响。

隐藏触发点对于更复杂的攻击至关重要。Chen等人[31]强调隐藏触发器对于增强隐身性的重要性。他们主张使用与良性样本非常相似的有毒样本，从而使攻击更加隐蔽。Chen等人提出的隐蔽混合策略直接将后门触发器集成到良性图像中，避免了明显的修补。平行研究探讨了不同背景下的隐蔽攻击。例如，Quiring等人[32]解决了图像缩放问题，而Saha等人[33]假设对手拥有模型结构的知识。[34]的作者利用图像结构创建隐蔽触发区域，并使用深度注入网络将其嵌入，从而实现隐蔽攻击。同样，在[35]中，提出了RGB到YUV通道转换结合DCT转换来插入触发器。????这些方法虽然有效，但在训练和测试期间保持固定的性质。

SSL领域引入了后门攻击的不同视角。从广义上讲，这些攻击分为两类:基于中毒的攻击[9,11,36,12]和非基于中毒的攻击[10]。Saha等人[11]在SSL中引入了基于中毒的后门攻击，其中攻击者污染了有限的训练数据集。这些攻击产生了后门样本的固定触发模式，导致成功率相对较低。在此基础上，Li等人[12]提出了一种新的基于中毒的攻击方法，将触发模式定义为特定的频域扰动。尽管这些触发模式具有效力，但它们仍然是静态的。值得注意的是，后门攻击可能出现在各个阶段，包括数据收集、培训和部署。Liu等人[10]设计了一种方法，将后门注入预训练的编码器，改变模型权重，并将触发模式与目标类输入相关联。然而，这种方法仍然依赖于单一的固定触发模式。

7.2. Backdoor Defense

已经提出了各种防御方法来对抗后门攻击。目前，自监督场景下的防御工作主要集中在检测后门模型或消除恶意植入的特洛伊木马模型上。为了区分后门模型和正常模型，现有技术采用基于反向触发特征(如触发大小)的垂直触发模式进行模型决策和识别[37,38,39]。DECREE[17]属于检测后门模型的防御方法范畴。它是为预训练编码器中的后门检测而设计的，不需要分类器头或输入标签，但它只能确定模型是否包含后门，而不能删除它。其他方法利用元分类器来检测模型中后门的存在[40,17];然而，这些方法需要大量的计算资源，并且依赖于一个强有力的假设(即，触发器大小是已知的)，因此使它们不太实用。

在去除污染样本领域，Tran等[41]试图通过分析潜在特征谱来净化有毒样本。然而，这种方法假定可以完全访问受感染的训练数据，这在实际应用中是不切实际的。Gao等人[13]提出的STRIP方法是将各种模式叠加到可疑图像上，过滤掉恶意样本，然后观察其预测的随机性。他们假设后门触发器的输入方法是未知的。此外，Tejankar等人[41]采用了一种新颖的方法，在编码器模型的训练阶段关注防御。它们通过搜索触发器粘贴位置来减轻触发模式的影响，有效地消除了后门。最近，Zheng等[18]提出了一种新的防御方法ssl - clean，该方法采用聚类算法和反向识别技术检测后门攻击。通过对SSL编码器生成的样本进行聚类，它可以识别异常触发器的集群，然后使用反向模式识别技术来识别和消除这些触发器。本项工作还深入研究了这种防御方法对GhostEncoder的影响。

7.3. Self-supervised Learning

现代计算机视觉系统在各种具有挑战性的计算机视觉任务中表现出色，主要依赖于大型注释数据集的可用性。然而，获取这样的数据既耗时又昂贵，使得在许多现实场景中构建大规模标记数据集变得不切实际。因此，设计一种仅通过少量标记示例就能成功识别新概念的学习方法是一项至关重要的研究挑战。

SSL是一个通用框架，旨在从大量未标记的数据中训练图像编码器，直接从数据本身提取有用的信息，这与需要手动标记数据的监督学习不同。在MoCo[19]、SimCLR[4]、SimCLRv2[20]、CLIP[21]等众多方法中，对比学习达到了最先进的性能。该方法将语义相似的样本(正对)和语义不相似的样本(负对)进行比较。通过设计模型结构和比较损失，将语义相似的正对在表示空间中表示得更近，而语义不相似的负对对应更远的表示，达到相似的聚类效果。

在计算机视觉领域，SSL有许多应用。Doersch等人[42]提出了一种通过预测两个随机采样的非重叠图像patch的相对位置来训练卷积神经网络(CNN)的方法。后来，[43,44]中的论文将这一思想扩展到预测多个随机抽样和排列块之间的排列关系。除了基于补丁的方法外，一些技术还利用图像级的自监督损失。例如，在[45]中，作者提出将灰度图像的着色作为辅助任务。另一个预训练任务的例子是[46]，它预测了应用于输入图像的旋转变换的角度。

8. Conclusion

在这项工作中，我们提出了第一个针对SSL的动态隐蔽后门攻击，称为GhostEncoder。我们证明，现有的后门攻击很容易受到当前防御机制的缓解，主要是由于其触发机制的可见性或静态性质。基于这种理解，我们探索了一种新的触发模式，并首次将其应用于非中毒后门攻击。实验结果证实，我们的GhostEncoder在保持模型效用的同时，以较高的攻击成功率欺骗受害者模型。此外，很明显，现有的针对后门攻击的防御措施不足以对抗我们的方法。我们研究了STRIP在自监督环境下失败的原因，并提出了一种新的增强方法，称为STRIP- cl。未来研究的有趣途径包括:1)将我们的攻击扩展到自监督场景中的其他领域，如自然语言处理;2)制定新的防御战略，挫败我们的进攻。