论文笔记:SRAE可恢复对抗样本 IEEE TCSVT 2022

IEEE Transactions on Circuits and Systems for Video Technology 2022

Abstract

  • 恶意智能算法通过检测和分析上传到社交网络平台的照片,极大地威胁了社交用户隐私的安全。对抗性攻击对dnn带来的破坏引发了对抗样本作为社交网络隐私安全的一种新的保护机制。
  • 但是,现有的对抗性例子并没有作为一种有效的保护机制的可恢复性。为了解决这个问题,我们提出了一个可恢复的生成对抗网络来生成自恢复的对抗样本该方法将对抗性攻击和恢复建模为统一的任务,可以减少恢复样本的误差,同时最大化攻击能力,从而提高对抗样本的可恢复性。
  • 为了进一步提高这些样本的可恢复性,我们利用一个降维器来优化对抗性扰动的分布。实验结果表明,该方法生成的对抗样本在不同的数据集和网络架构上具有优越的可恢复性、攻击能力和鲁棒性,保证了其作为社交网络保护机制的有效性。

CCS Concept

安全和隐私→安全和隐私的社会方面;隐私保护;计算方法→对象识别。

关键词

Social networks, deep learning, adversarial attack and recover, privacy protection

1 Introduction

· 深度神经网络(DNNs)在图像处理和语义识别等许多任务中都取得了良好的性能。然而,最近的研究表明,dnn很容易受到对抗样本的影响。在正常的样本中,可以通过在样本中加入一些特殊的、难以察觉的噪声来产生对抗样本,从而使目标dnn输出错误的预测。

对抗样本的生成可以被分为黑盒和白盒两种类型。拥有目标DNN网络的结构和参数,对抗样本[1,5,7,13,18,19,22,23,31]可以在白盒的的情况下生成,把包括基于优化的方法L-BFGS,基于梯度的方法FGSM和各种各样的迭代方法。除此以外,由于可迁移性,对抗样本可以在黑盒的情况下表现出攻击性。例如,根据模型A生成的对抗样本同样可以使模型识别错误。尽管现存的对抗样本防御方法可以使DNN的鲁棒性提高,但新的对抗样本综述能打破这些防御方法。因此,对抗样本在现实世界的条件下是切实可行的,并对dnn的可靠性构成了巨大的威胁。

·尽管对抗样本给dnn带来了破坏和威胁,但我们试图利用这些负面影响来发挥这些样本的积极潜力,作为社交网络中隐私安全的一种新的保护机制。具体来说,如今,用户上传大量照片到社交网络平台上分享他们的日常生活。这些照片包含了个人私人信息,包括用户的社会关系、财产、身份。这些信息很容易被恶意智能算法(如DNNs)检测和收集,极大地威胁了社交用户隐私[25,26,34]的安全。因此,我们的目标是基于对抗样本的理论来保护图像隐私。与其他保护方法相比,制作图像作为对抗样本是难以察觉的,可以有效地防止流行的dnn对图像进行检测、分类和进一步分析图像内容。

· 然而,现有的对抗性攻击缺乏对可恢复性和可逆性的研究,因此无法作为一种有效的保护机制。因此,如图1所示,我们考虑制作SRAE(self_recoverable adversarial examples,SRAE),它在各种情况(如干扰、对抗防御)下具有较高的攻击能力并且只能近乎无损的被我们自己恢复。在此基础上,SRAE可以作为一种新的保护机制(如图2所示),避免数据被恶意dnn识别、收集和分析,同时保持对用户无害。此外,对抗样本的可转移性可以使这种保护机制具有很大的推广能力,使其在不知情的对抗环境中仍然有效。

· 在本文中,我们提出了一种RGAN(recoverable generative adversarial network,RGAN)以端到端方式生成所提出的SRAE。超过了现有的白盒攻击不断需要目标dnn的梯度信息外,所提出的RGAN不受结构和参数的影响(黑盒)更重要的是,我们没有将对抗性攻击和恢复视为两个独立的任务,而是试图通过所提出的框架将攻击和恢复建模为一个统一的任务。为了更好地学习对抗性扰动的分布,将恢复部分与生成部分联合动态联合设计和训练。实验结果表明,SRAE在不同的数据集和网络结构上具有更好的可恢复性。SRAE在最大化攻击能力的同时,减少了恢复实例的误差,并优于现有的对抗攻击和防御方法的组合
·为了进一步提高SRAE的可恢复性,我们研究了恢复误差与对抗性扰动分布之间的关系。给定具有一定仿真能力的网络架构,我们观察到具有较低强度或更简单结构的对抗性扰动更容易恢复。因此,我们设计了一个降维器来优化对抗性扰动的分布。结果表明,利用减维器优化的SRAE可以恢复到原始实例,误差可以忽略,进一步满足了恢复实例的无害要求。综上所述,本文的主要贡献是:

我们提出的RGAN是第一次尝试将对抗性攻击和恢复模型,一对相互反向的挑战,作为一个联合的任务。在联合动态训练的支持下,可恢复的对抗样本最大化了攻击能力,并且可以通过我们的RGAN几乎无损地恢复。

我们研究了对抗性扰动分布对可恢复性的影响,表明具有较低强度或较简单结构的扰动更容易恢复。因此,我们设计了一个降维器来优化扰动分布,进一步提高了可恢复性。

实验结果表明,该方法比在不同数据集和网络架构上结合最先进的攻击和防御方法(这是指预处理方法吧?)具有更好的可恢复性,可作为一种新的有效的社交网络隐私安全保护机制。

2 Related Work

在本节中,我们将简要描述本文中使用的概念。此外,由于缺乏可恢复的对抗样本我们回顾了一些关于对抗性攻击和防御的相关工作。在第4节中,这些攻击和防御将被结合起来,作为与我们的SRAE的竞争解决方案

我们将x表示为来自数据集的干净图像,将y表示为xground truth标签。目标深度神经网络用模型f(·)表示,该模型可以实现f(x)=y。对抗性攻击的目标是找到一个扰动r,使得f(x+r)≠y。xadv表示对抗样本,这意味着xadv=x+r

2.1 存在的对抗攻击方法

现存的生成对抗样本方法可以被分成3个类:基于优化的,基于梯度的,基于生成的。

Optimization-based methods[1,23]:将对抗样本xadv的扰动 r的大小和对抗样本的的攻击能力作为优化目标。

Gradient-based methods[5,7,13,19,22]:根据梯度方向[7],通过选择的扰动步长ε,使损失函数最大化。虽然基于梯度的方法在攻击能力方面存在一定的缺点,但它们比基于优化的方法要快得多

Generation-based method[18,31]:训练另一个模型来为目标模型生成扰动。这些方法与基于优化的方法具有相似的灵活性,但花费时间更短。此外,这些方法可以在没有目标模型参数和结构的情况下生成对抗样本。

2.2 存在的对抗防御方法

现有的对抗防御方法也可分为三个主要方向:对抗训练、对抗去噪和对抗检测。

Adversarial training[7,19,27,29,30]:用对抗样本来扩充训练数据集来训练一个鲁棒的模型。

Adversarial denoising[12,16,35]:利用去噪器对输入进行预处理,这可以消除对抗样本攻击性。

Adversarial detection[6,9,15,17,28]:目的是确定输入是否具有对抗性,而不是消除对抗性。

3 Proposed Method

3.1 Overview

·我们的目标是为self-recoverable adversarial examples(SRAE)开发一个可学习的端到端模型,它可以形成一种保护机制。由于对抗性属性和高可恢复性的结合,SRAE可以对攻击者具有攻击性,同时对我们自己无害。请注意,可恢复性并不意味着SRAE是脆弱的,并且很容易被破坏。相反,SRAE对存在于社交网络和其他对抗性防御方法(如JPEG压缩、高斯噪声、去噪滤波器、APE[12]、ARN[35])中的各种转换T(·)具有鲁棒性。在我们的场景中,SRAE只能通过提出的recoverale Generation adversarial network(RGAN)精确恢复那这个地方嵌个模型水印不就是GEAA)。

·如图3所示,我们提出的RGAN有5个部分:一个生成器G,降维器DR,鉴别器D,目标分类器C,一个恢复器R。

具体的,生成器G以原始杨晓波x作为舒服,并输出扰动G(x)。然后,扰动G(x)由降维器DR恢复。然后,对抗样本可以以x+DR(G(x))得到。然后,对抗样本被送往鉴别器D和目标分类器C,为了优化不可分辨性(indistinguishability)和攻击性。同时,对抗样本被送往恢复器R,其目标是恢复这些对抗样本至原始的样本。值得注意的是提出的框架跟现存的去噪方法不同。提出的RGAN联合的训练生成器G和恢复器R,而不是将恢复从攻击中分离,这导致了更好的恢复性。这使得生成的SRAE可以成为社交网络中隐私安全的保护机制(可以单独把恢复器拿出来用)。 

3.2 Recoverable Generative Adversarial Network(RGAN)

· 生成器G是起点,其目的是根据输入x的特征产生扰动。它由Encoder、Bottleneck和Decoder组成。该编码器由三个卷积层、归一化层和ReLU激活函数组成,从干净的图像中提取特征。相应的,解码器采用反卷积层,归一化层和激活函数,把特征映射到扰动,该扰动的尺寸和图像一样大。为了增加生成器G的表达能力,我们在编码器和解码器间加了bottleneck模块,由残差块组成。

· 恢复器R的目的是恢复对抗样本。我们研究了不同结构的恢复器R对恢复能力的影响。假设恢复器R比生成器G更复杂更深,是否能更好地恢复对抗样本。

· 如图4所示,深入研究对抗样本的可转移性,我们发现为特定网络生成的对抗样本可以更好地转移到其同源网络中。例如,为一个ResNet生成的对抗样本更有可能与ResNet家族中的另一个网络产生对抗性此外,在网络家族中,为具有深度相似的网络生成的对抗样本往往具有更好的可转移性。这些现象表明,具有相似深度的同源网络往往具有更多相似的决策边界


· 如图5所示,基于生成的方法所产生的扰动比基于梯度和基于优化的方法更大、更混乱。这一观察结果促使我们考虑如何减少由基于生成的方法所产生的扰动的冗余性。简单地扩大损失函数中扰动强度的权重确实有助于降低扰动强度。但是,它给攻击能力带来了一些缺陷(见附录A)。因此,我们专注于降低扰动结构的复杂性,而不是扰动强度。为了降低扰动的复杂度,我们在降维器DR的开始处实现了一个采样操作。下采样后的扰动与原始样本的大小不相同,这需要扰动再上采样

 

图5

下采样和上采样操作后的扰动粗粒度粗糙、不准确,导致攻击能力出现缺陷,增加训练难度。为了解决这些缺点,我们在降维器DR中添加了一个skip连接。由生成器G输出的有效扰动可以通过跳过连接跳过下采样和上采样操作。保留的有效的扰动可以使攻击能力进步。除此以外,条约链接可以使DNNs的表现进步,通过降低深度网络带来的训练困难。降维器DR中结合了下采样,上采用和跳跃连接,我们有效的减少了扰动的复杂性,使得SRAE的可恢复性进一步提升了。我们在4.1.2评价了不同的下采样,上采样和跳跃连接结合的表现。

· r 原始扰动  r* 恢复的扰动  r 通过了降维器DR后的扰动

· 更不复杂的扰动更容易恢复。给定一张n个像素的图像x,假设r = [r1,r2,...,rn] ~Rn代表加在每个图像像素的扰动,r* = [r1*,r2*,...,rn*]~Rn,代表恢复的扰动。对抗样本可以通过x+r得到,并且恢复的样本可以通过x+r-r*得到。这里我们用Δ表示r和r*在L2范数下的不同,可以被计算为:

使r’ = [r’1,r’2,...,r’n] ~Rn表示通过了降维器DR之后的扰动。相应的,r*和r’之间的Δ’可以被计算为:

为了清晰起见,使用大小为m的平均池化(比如m=9对于3×3的核)作为降维器DR下采样和上采用操作举例说明,这代表:】

其中:

(Δ’m)2与(Δm)2的差距可以被计算为:

同时,

结合公式5和6,我们可以得到:

附录B:

Size m=9,核为3的平均池化作为下采样和上采样操作

 (经过上采样和下采样后,m=9的区域内都变成均值,所以一样)

同时,

3.3 Loss Function

G的loss被描述如下:

LG_adv是用来增加攻击能力的,通过计算H(·)交叉熵损失

LG_dis是用来使确保生成的对抗样本与原始图像之间不可区分。

LG_mse是用来限制扰动强度的。

λ是对应的超参,权重。

R的loss(恢复的是扰动!!!!不是图像)被描述如下,LR_mse是用来优化恢复器R的,可以被描述为:

这个是限制恢复的扰动与原始扰动一致

为了确保恢复能力,我们还计算了恢复样本的对抗损失,可以被描述为:

这个是限制对抗样本减去了恢复的扰动被识别成原来的标签

D的Loss描述如下:

4 Experiments and Analysis

为了公平比较,所有实验都是在一个RTX 2080Ti,pytorch进行。对于攻击方法PGD,C&W,和DDN,我们的实现来自于advertorch。对于防御方法,我们用了ARN,APE,图像超分辨率,JPEG压缩,像素偏转,随机缩放和padding,Image quilting+总方差最小化。所有的上述比较方法都是采用它们的默认设置。G、R、D的学习率都设置为10-3并且每50个epochs下降10-1同时,

LG中λ1=10,λ2=1。

为了更好地衡量其通用性,我们在不同数据集的不同网络架构上进行了比较实验。具体来说,我们在MNIST[14]上训练LetNet-5(图像大小为28×28),在Caltech-256上训练ResNet-50、DenseNet-121和MNIST[14]NetV3。Caltech-256[8]是从谷歌图像数据集中选择的。该数据集被分为256个类别,每个类别中有超过80张图像。

如第1节所述,我们的SRAE旨在作为一种防止恶意智能检测或分类算法的保护机制。因此,我们的目标是确保目标模型在各种情况下(如干扰、对抗性防御)中对SRAE进行错误分类。更重要的是,SRAE应该只能通过我们的恢复器R进行几乎无损的恢复。

4.1 Ablation Study

4.1.1 network structure

这离,我们研究了不同深度的网络带来的恢复能力。为了证明生成器G和恢复器R网络深度相同的时候恢复能力会提高,我们用不同的深度训练生成器G和恢复器R。如图6(a)所示,我们固定了生成器G和恢复器R中整个bottleneck的深度,等于12。G-R代表G和R的深度差距。从LR_mse的变化,我们可以观察到相似深度的G和R可以以更少的错误恢复对抗样本。

基于此,我们生成器G和恢复器R设置成同样的深度,学习整体深度对恢复性的影响。如图6(b)所示,G+R代表深度总和。虽然L_R_adv没有明显减少,但LR_mse随着总深度的增加而不断减少。它揭示了更深的网络可以以更小的错误恢复对抗样本。但是,为了在参数量和可恢复性之间进行权衡,我们设置总深度为8(G和R的深度都为4)来进行以下实验。

4.1.2 dimension reducer DR

对于降维器DR,我们首先进行了一个消融实验证明了它的有效性。然后,我们聚焦于在降维器DR内的各种下样、上样和跳过连接操作的组合所带来的改进。

表1展示了RGAN在没有降维器DR的表现,被NA表示。此外,表1还显示了由RGAN通过各种上采样,下采样和skip-connection操作的组合生成的对抗样本和恢复样本的损失。注意上采样的最大池化需要下采样操作做索引。因此,只对下样本和上样本进行最大池化的组合。从表一,LG_adv和LR_adv反映了对抗样本和恢复样本的对抗性。LG_mse反应了对抗样本和原始样本间的误差,同时LR_mse反映了恢复样本和原始样本间的误差。

如表1所示,比较LR_adv和LR_mse,提出的RGAN采用降维器DR可以比不采用更好的恢复对抗样本。与该方法的讨论一致,较不复杂的扰动更容易恢复。从观察结果来看,表1中的几个组合(例如,没有跳过连接的上采样和下采样的卷积)不能收敛损失。但是,通过利用跳过连接,可以训练上样本和下样本的每个组合。这证明了跳过连接可以大大降低训练难度,使损失收敛得更好。此外,通过跳跃连接和卷积的结合,LR_adv和LR_mse少于其他组合。这代表了对抗性的性质,并且恢复的样本的误差都达到了最小化。其优点证明了卷积更加灵活,在下采样过程中保持了更有效的对抗性扰动,并进一步提高了可恢复性。

表1

表1中的LG_adv列显示了降维器R在提高可恢复性的同时,对攻击能力存在一些缺陷。因此,为了评估攻击能力,我们通过设置不同的内核大小和相应的步幅(例如,步幅=2,kernel size=2×2),进一步探索不同的降维等级的影响

我们选择了下样本卷积化和无skip-connection的上样本平均池化的组合来评估攻击能力的性能。如第1节所述,我们的SRAE旨在作为社交网络平台上的一种保护机制。因此,我们也评估了SRAE对社交网络平台上广泛的图像操作(如JPEG压缩、高斯噪声)干扰的鲁棒性。如图7所示,在没有干扰的情况下,不使用降维器DR的RGAN的攻击成功率(ASR)为98%,而使用降维器DR只能达到90%-95%。内核规模越大,ASR也就越低。它证明了一个更大的内核大小会导致一个粗粒度的扰动,从而导致攻击能力的劣势。然而,如图7所示,由降维器带来的粗粒度扰动也提高了SRAE在干扰情况下的鲁棒性。此外,随着内核大小的增加,SRAE变得越来越健壮。对这些转换的鲁棒性进一步确保了作为社交网络中保护机制的SRAE的有效性和安全性。

图7

4.1.3 loss function

这里,我们研究了对于恢复器R的不同的loss。如上述提到的,可恢复性可以通过LR_adv和LR_mse衡量。我们结合了LR_adv和LR_mse和不同的权重α和β,形成目标loss func。

对抗列内的PSNR反映了对抗样本与原始样本之间的差异,而恢复列内的PSNR反映了恢复例与原始例之间的差异。ACC反映了对抗样本和恢复样本的分类精度。如表2所示,仅以LR_adv(α=0,β=1)作为损失函数,并不能达到令人满意的可恢复性。恢复的和原始的样本之间的差异甚至大于对抗样本的和原始的样本之间的差异。此外,我们试图通过设置不同的αβ来缓解LR_mseLR_adv之间的关系。然而,PSNR的改善与ACC的改善并不一致。这些现象部分地揭示了目标网络决策边界的缺陷根据这个决策边界恢复这些示例可能会扩大恢复的示例与原始示例之间的差异。因此,我们只利用LR_mse进行优化,它在差异性和可恢复性方面都很优越。(???直接没有识别损失了,就是说恢复来的样本不用被识别成原样本,但恢复过来的识别效果反而好?)

4.2 Recoverability Comparison

表3显示了不同网络架构下不同数据集的可恢复性结果。由于缺乏对对抗样本的可恢复性研究,我们将经典的DDN [22]与最先进的对抗恢复或防御方法结合起来,作为我们的SRAE的竞争解决方案。我们还在附录C中比较了C&W [1]和PGD [19]。可恢复性从两个方面来衡量:恢复实例与原始实例的区别和恢复实例的对抗性。具体来说,这种差异反映在两个标准上:误差的L2范数(越小越好)和峰值信噪比(PSNR,越大越好)。目标网络对这些恢复实例的分类错误率(CER,越低越好)反映了对抗性特性。从表3可以看出,差异较小,且具有较低的CER,表示这个方案的可恢复性较好。可以观察到,我们的RGAN在不同网络架构的小尺寸MNIST(图像尺寸28×28)和大尺寸Caltech-256(图像尺寸224×224)上始终达到最佳的可恢复性。这个优点确保了RGAN作为一种保护方案的有效性和泛化性。(PSNR是恢复的对抗样本和原始样本之间的差异)

在MNIST上,将DDN与几种防御方法(如[35]、[12]、[20]、[3])相结合,表现出竞争性能,恢复了约98%的对抗样本。相比之下,我们的RGAN恢复了近99%的例子,有更多的小错误(L2范数减少了一半以上)。此外,我们的RGAN在转移到更大的数据集和其他网络结构时,可以保持可恢复性(仍然可以恢复近99%的示例,但误差很小)。然而,上述在MNIST上的竞争组合并没有显示出令人满意的可恢复性转移。

在加州理工学院-256上,DDN和Das et al[3]的组合。[3]在可恢复性方面优于其他组合。相比之下,我们的RGAN仍然比这种组合多恢复了3%的样本。请注意,由Das et al[3]提出的防御方法。[3]是基于JPEG压缩技术的。这意味着Das et al[3]减少CER是基于破坏而不是恢复对抗扰动,这可以反映在恢复的和原始例子之间的较大误差(较大的L2范数和较小的PSNR)。基于这一考虑,这些组合不适合作为一种保护机制。

4.3 Adaptive Attack Evaluation

第1节所述,SRAE旨在成为一种新的有效的保护机制,以抵御社交网络平台上的恶意智能检测算法。为了更全面地衡量这种保护机制的有效性,我们在图7中评估了不同干扰条件下的攻击能力。除了干扰条件外,如果攻击者知道我们的对抗保护机制,他们能利用现有的对抗防御方法摧毁我们的SRAE吗?因此,我们进一步评估了SRAE在最先进的对抗性防御方法下的攻击能力。

如图8所示,我们在没有对抗性防御的情况下,SRAE的攻击成功率达到了95%。此外,在各种对抗性防御策略下,SRAE仍然取得了较高的攻击成功率(从71%到94%)。从图7和图8可以看出,我们的SRAE在干扰和对抗性防御条件下都能保持较高的攻击能力,这证明了SRAE可以作为社交网络平台上有效、健壮的用户隐私保护机制。

5 Conclusion

尽管敌对的例子带来了破坏和威胁,但我们在本文中将这些负面影响转化为积极的保护机制。我们提出了一个RGAN来生成SRAE。具体来说,通过对生成器G和恢复器R的联合动态训练,该模型在保持攻击能力的同时提高了可恢复能力。

此外,通过研究扰动强度和复杂度对恢复率的影响,我们设计了一个降维器DR来优化扰动分布,进一步提高恢复率。实验结果表明,在不同的数据集和网络体系结构上,我们的模型比目前最先进的攻击和防御方法的组合具有更好的可恢复性。该模型在可恢复性、攻击能力和鲁棒性方面的优势保证了模型的有效性和通用性,是社交网络隐私安全的一种新的有效保护机制。由于所提出的RGAN是轻量级的,在未来的工作中,我们将尝试通过使用更多的数据训练更深入、更广泛的网络体系结构来探索可恢复性的上限。

思考

感觉实验指标有点混乱,但可以借鉴他做的实验

附录A

如图9所示,放大LG_mse的权重λ2确实有助于降低扰动强度。然而,如图10所示,λ2越大,LG_mse越小,LG_adv也越增加,导致攻击能力下降。请注意,基于生成的方法不同于白盒攻击。基于生成的方法不需要训练后的目标模型的参数和结构。这种差异使得扰动强度对于保证基于生成的方法的攻击能力非常重要。较小的强度更难优化(例如,当λ2=14时,LG_adv显著增加,这表明扰动几乎失去了对抗性的特性)。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值