【论文阅读】IEEE TIFS 2022|| Perturbation Inactivation Based Adversarial Defensefor Face Recognition

文章提出了一种新的对抗性防御策略,通过将对抗样本投射到估计的免疫空间来消除对抗性扰动,以此增强人脸识别模型对未知攻击的鲁棒性。为了估计免疫空间,文章提出了一种可学习PCA方法,它提供了一种分段线性估计,提高了对非线性扰动的适应性。实验表明,这种方法在不同类型的对抗攻击下表现出良好的泛化能力,并且适用于在线防御场景。
摘要由CSDN通过智能技术生成

IEEE TIFS 2022:基于扰动灭活的人脸对抗防御

原文标题:IEEE Transactions on Information Forensics and Security

原文链接:https://ieeexplore.ieee.org/abstract/document/9845464

原文代码链接:https://github.com/RenMin1991/Perturbation-Inactivate

Motivation

基于深度学习的人脸识别模型虽然已经得到了广泛的应用,但是它们却很容易受到对抗性攻击,并且对于对抗攻击的鲁棒性很差。为了缓解对抗攻击带来的不良影响,研究者们已经提出了很多对抗防御方法。然而这些方法大多是针对一般的物体识别任务提出的,人脸识别任务与一般的物体识别任务相比具有以下两点独特性:

首先,我们无法提前知道攻击方法。在实际应用中,人脸识别系统面临各种可能的攻击,而且新的攻击方式也在不断涌现,提前预知所有可能的攻击方法是不可能的。因此,对未见过的对抗攻击方法的泛化能力对于人脸识别的任务来说至关重要。当前的大多数对抗防御方法旨在通过对抗训练或类似策略来提高识别模型的鲁棒性,这意味着在识别模型的训练集中引入对抗样本。然而,这并不能保证方法的泛化能力。

其次,对于实际部署的人脸识别系统,攻击者会将防御模块一并纳入攻击范围。这种场景在我们的论文中被称为在线防御。这将使得防御的难度大大提升,大多数当前的防御方法都不是为这种困难的情况而设计的。

因此,我们迫切需要一种针对人脸识别任务的泛化性好、能够适应在线防御的方法。

Abstract

事实上,深度学习模型对一般的扰动相当稳健,例如高斯噪声。就像人体对大多数病毒都有很好的免疫力,只有少数病毒除外,那么我们与其期望人类进化到对所有的病毒都免疫,一个更加合理的方案是对这些强大的病毒进行灭活,直到它们可以像普通病毒一样轻松处理。类似地,人脸识别对抗防御的一个合理的方案是对对抗噪声进行预处理,使得它们像一般噪声一样容易处理。该策略利用了识别模型对于噪声固有的鲁棒性力,并且不需要特定的对抗样本进行训练,不会过度适应特定的攻击方法。相对地,提高识别模型本身的鲁棒性则成本高昂而且泛化能力缺乏保障。

为了利用识别模型的固有鲁棒性,我们探索了基于 CNN 的人脸识别模型在不同类型扰动下的鲁棒性。我们发现噪声的子空间是影响识别模型的关键因素。不同子空间中的扰动对识别模型的相似性度量有不同的影响。因此,我们假设存在一个子空间,其中扰动对相似性度量的不利影响小于其他子空间。这个子空间在本文中被命名为免疫空间。给定免疫空间,可以将对抗性样本投射到其中以消除对抗性扰动。因此,对抗性扰动将被限制在扰动具有最小不利影响的子空间中(干净的样本位于免疫空间中)。在在线防御中,攻击方法的搜索空间将被显着压缩,识别模型的欺骗难度将大大增加。

为了估计免疫空间,本文提出了一个新的框架。受主成分分析(PCA)的启发,我们在本文中提出了一种可学习的 PCA 来估计免疫空间。在经典 PCA 中,估计的子空间由根据特征值选择的特征向量张成,这是一种典型的线性估计方法。但是,免疫空间可能是高度非线性的,经典的 PCA 提供的线性估计显然是不合适的。为了正确估计免疫空间,可学习 PCA 旨在为每个样本提供自适应的局部线性估计。如图 1 所示,可学习 PCA 通过分段线性策略估计免疫空间。每个样本的估计也由特征向量张成,特征向量的选择则由神经网络给出,而不是根据特征值进行选择。在训练策略方面我们采用了基于策略梯度的强化学习。

图 1 基于扰动灭活的人脸对抗防御示意图。

(a) Xadv是贴纸攻击从X生成的对抗样本。F(·)为识别模型,是将输入样本映射为特征的函数。(b)将Xadv投影到免疫空间的估计中,以在识别模型之前灭活对抗性扰动。

Contributions

  • 我们探讨了不同扰动下人脸识别模型的鲁棒性。研究发现,扰动子空间是影响识别模型的关键因素。

  • 基于这一发现,我们提出了一种对抗性防御方案,通过将对抗性样本投射到免疫空间来灭活对抗性扰动。

  • 为了估计免疫空间,我们提出了一种新的可学习PCA作为所提出的对抗防御方法的关键组成部分。可学习PCA提供了免疫空间的分段线性估计

Related Work

现有的对抗性防御方法大致可分为两类。第一类的方法旨在提高神经网络对抗对抗样本的鲁棒性。第二类方法试图在将样本馈送到目标模型之前从样本中消除对抗性扰动。这两类方法将分别讨论。

第一种常见的策略是用对抗的样本来训练网络。这是一种提高对抗攻击的鲁棒性的直接方法。为了提高基于梯度的攻击的鲁棒性,提出了各种学习策略。Ross等在正则化输入梯度的同时训练模型。采用网络蒸馏、基于区域的分类器、生成模型、自监督学习等方法提高模型的鲁棒性。Rakin等提出了一种可训练的随机性方法,通过对抗性训练提高鲁棒性。在中提出了新的对抗防御损失函数。Mustafa et al通过限制深度神经网络的隐藏空间来提高鲁棒性。Zhong等采用基于边缘的三元嵌入正则化来训练识别模型。

Cazenavette等人试图通过将每一层重构为稀疏编码模型来提高CNN的对抗鲁棒性。但是,这些方法对看不见的攻击的泛化能力不能保证,而且在实际应用中成本较高。实验结果表明,它们在看不见的攻击上的性能并不理想。

Liao等采用U-Net作为去噪模块去除对抗性扰动。PixelCNN用于将对抗性示例转换为[45]中的干净图像。在PixelCNN中应用Hilbert扫描,提高中的防御性能。Dezfooli et al和Sun et al采用稀疏编码重建图像斑块。Gupta等试图找到图像中影响最大的部分进行重建。Xie等采用自注意层在特征空间中恢复原始信息。采用自监督学习去除类激活特征空间中的对抗性噪声。

然而,这类方法大多是为一般的图像分类而设计的。人脸识别通常是一个完全或半开集问题,这意味着训练数据集和测试数据集之间存在部分或没有身份重叠。识别的标准是样本的相似度度量,而不是分类边界。因此,大多数用于一般图像分类的防御方法都不适合人脸识别。

对不同子空间扰动的鲁棒性

为了提高识别模型对扰动的固有鲁棒性,我们研究了不同噪声下人脸识别模型的鲁棒性。研究发现,不同子空间中的噪声对样本之间的相似度量有显著不同的影响。

本节采用ArcFace作为特征提取器,这是目前最先进的人脸识别模型。本实验随机选取了两对来自野生标签人脸的样本。第一对是正电荷对,第二对是负电荷对。对于每个图像对,其中一个图像被高斯噪声污染,而另一个图像保持干净。利用特征的余弦相似度来衡量识别模型的行为。图像的总空间为RH×W, h和w分别为图像的宽度和高度。为了探究不同子空间中噪声的影响,本实验考虑了三个不同子空间中的噪声:RD1,、RD2和 RD3, d为该子空间的维数,如图2所示。

图2 图像对X, Y, X在不同的子空间中被高斯噪声扰动,而Y保持干净。然后,通过识别模型计算两者的相似度。不同子空间中的扰动样本对距离度量有不同的影响

这三个子空间是人脸图像的底部、中间和顶部三个子区域的像素集合,如图3所示。总空间也进行了比较。噪声的强度(L2范数)固定为0.04,每个子空间生成10,000个扰动样本。各子空间的相似度分布如图4所示。

图4 (a)正对的相似性分布。(b)负对的相似度分布。噪声在不同子空间中的作用是不同的

对分布的考察表明,噪声在不同的子空间中的影响是不同的。子空间#1和#2的分布峰值与干净图像的相似性相比方向相反。同时,子空间#3的分布峰值仍然接近干净图像的分布峰值。此外,分布的方差变化很大。子空间#3的分布明显比子空间#1和子空间#2的分布更紧凑,表明子空间#3中的识别模型对噪声的鲁棒性优于其他两个子空间。

这些分布表明识别模型对噪声的鲁棒性因子空间而异,在其他图像对中也可以观察到这种现象。原因是三个子空间中信息的意义不同。对于识别来说,子空间#1和#2中的信息比子空间#3中的信息更重要。因此,识别模型对子空间#3中的噪声具有更强的鲁棒性。因此,我们假设存在一个免疫空间,其中扰动对距离度量的影响小于其他子空间,而激发识别模型固有鲁棒性的关键是找到免疫空间,以便通过将对抗样本投射到该空间中来灭活扰动。

本节通过一个实验来验证这一观点。主成分分析(PCA)是一种经典的线性子空间学习方法,它通过前几个特征向量估计子空间。因此,采用主成分分析法来估计微扰失活的免疫空间。在这个实验中,选择前200个特征向量来扩展被摄动样本投影到的子空间。上面提到的所有扰动图像都投影到这个子空间进行失活(干净的图像也被重建以进行比较)。通过投影的投影图像示例如图5所示。

图5 投影重建图像实例。投影减少了噪声带来的差异。但是一些有用的信息同时丢失了。

失活后的相似性分布如图6所示。

图6 (a)失活后阳性对的相似度分布。(b)失活后负对的相似度分布。失活后,所有子空间中噪声的不利影响都减小了

所有分布的峰值都被拉回干净图像之间的相似度,如图所示。所有分布的方差都减小了。子空间#1和#2的相似度分布受到更显著的影响,因为特征值越高的特征向量越可能包含人脸图像的有用信息,并且这两个子空间中的噪声更可能与这些特征向量正交。这些噪声更有可能分布在具有较低特征值的特征向量的空间中,因此它们可以通过投影去除。这意味着噪声的不利影响通过失活而减少。

然而,从图中观察到,干净图像之间的相似性也发生了变化,从而降低了人脸识别性能。原因是PCA对免疫空间的估计是线性的,但是由于人脸图像在现实世界中的分布是相当复杂的,免疫空间可以是高度非线性的。主成分分析的线性估计过于松散,不利于扰动失活。为了解决这一问题,提出的可学习主成分分析提供了分段线性估计,以保持干净图像的距离度量,同时抑制对抗性扰动。它在每个样本附近提供了一个局部线性子空间,如图7所示。利用局部线性估计集可以很好地估计非线性免疫空间。

图7所示。经典PCA对免疫空间进行线性估计。然而,免疫空间可能是高度非线性的。该方法利用局部线性子空间分段线性估计免疫空间。

灭活扰动

Overview

根据前面的分析,所提出的方法旨在以分段线性的方式估计免疫空间。然后,将扰动图像投影到估计的子空间中,在识别模型之前抑制对抗性扰动。该方法受到主成分分析的启发,通过自适应选择每个样本附近的特征向量来估计免疫空间。特征向量的选择由智能体以深度神经网络的形式进行。网络的输入是一张图像,输出是特征向量的选择概率:

其中Aθ(·)是代理,p∈RN是输出向量,N是特征向量的个数。p的每个分量都是选择一个特定特征向量的概率。通过对p的所有分量进行采样,可以得到一个二进制向量q∈{0,1}N,如图8所示。根据q选择特征向量进行估计:选中为1,未选中为0。

图8 输入图像的扰动通过投影到子空间中来灭活,子空间是免疫空间的估计,由选定的特征向量扩展。特征向量是根据代理A(·)给出的概率选择的

然后,将输入图像投影到所选特征向量扩展的子空间中去抑制对抗性扰动。这种机制被命名为可学习PCA。vanilla PCA和可学习主成分分析之间的关键区别在于,可学习主成分分析提供了每个样本附近免疫空间的分段线性估计,而不是线性估计。

Learnable PCA

可学习PCA包含三个部分。第一个部分是一个预训练的去噪自编码器(DAE),第二个部分是一个卷积神经网络,称为特征向量选择网络(ESN),第三个部分是两个完全连接的层,然后是sigmoid激活。

预训练的去噪自编码器用于加速训练过程的收敛,并在其他可学习PCA组件的训练期间冻结。预训练去噪自编码器的架构如Tab1所示。特征向量选择网络(ESN)是一种卷积神经网络,适用于提取图像的深度表示。ESN的结构如Tab2所示。第三个分量将表示转换为n维概率向量p。第三个分量的架构如Tab3所示。

二值选择向量q由抽样N个伯努利分布生成,伯努利分布由概率向量p的分量参数化。根据选择向量q,生成由所选特征向量Bq∈RD×N组成的矩阵,其中D为输入图像的维数。然后,通过Bq对输入图像Xinput进行重构:

其中Xm是训练集中所有干净图像的均值。

在提出的可学习主成分分析中,由于采样操作,特征向量选择是非微分的。因此,该框架不能直接通过梯度反向传播进行训练,所以我们通过策略梯度来训练网络,如图9所示。

图9 Training of the proposed framework. 预训练的去噪自编码器用于加速训练过程的收敛,并在训练过程中被冻结。受深度强化学习算法的启发,采用策略梯度对模型进行训练。

首先,我们定义了训练对象。对于框架生成的选择向量q,可以认为是一个动作,我们可以定义一个奖励函数来评价动作q:

为了提高泛化能力,在训练过程中,输入图像被高斯噪声污染,其中xn为受污染的输入图像,xm为训练集中所有干净图像的平均值,x为干净图像,Bq为由所选特征向量组成的矩阵。奖励函数的第一项用于评价重建质量。第二项是q的零范数,i是一个正则化项。正则化在重构过程中倾向于激活较少的特征向量。因此,在线防御时,会敦促agent去寻找维数更低的子空间,压缩攻击方法的搜索空间。λ是平衡重构损失和正则化的尺度参数。

训练的目标是使输入图像的期望奖励最大化:

其中Bθ(xn)是q的伯努利分布。因此,训练的目标是最小化负期望奖励:

我们可以通过蒙特卡洛抽样来估计期望回报:

Q为蒙特卡罗抽样根据Q的伯努利分布生成的Q的集合:

式中Pθ (qi|xn)为输入图像xn条件下qi出现的概率。因此,训练的梯度可计算为:

然而,在训练过程中,这个梯度并不稳定。为了减少梯度的方差,我们采用了一种基线策略[53],[54],这是一种广泛应用于强化学习的方法。对于每个输入图像:

其中基线r0与动作qi无关。然后基线r0不改变Eq. 8中的估计,但它可以有效地降低梯度的方差。我们选择每个小批量奖励的平均值作为基线。然后,可以根据公式10中计算的梯度来训练网络。

Training Details

所有输入的图像都使用ArcFace[23]中相同的方法进行预处理。将输入图像转换为灰度图像,只有一个投影通道。只考虑前2500个特征向量。其他特征向量的概率固定为0。扰动的强度用扰动的尺度与干净图像的尺度之比表示:

训练时高斯噪声的强度设置为0.04。将预训练的DAE在相同强度高斯噪声扰动下的CASIA WebFace[20]上进行训练。采用带动量的随机梯度下降法进行优化。基本学习率为0.01,每20个epoch学习率下降50%。动量固定为0.9。奖励函数中的λ设为0.015。这些超参数是根据深度学习模型训练的常规实践选择的,无需进行详细的调整。

实验结果

我们首先针对当前主流的对抗攻击方法进行了实验,如表1所示。可以发现我们的方法相对与对比的防御方法具有显著的性能优势。尤其是在在线防御的设置下优势更加明显。这说明我们的方法更加适合于在线防御。对于样本在特征空间中分布的可视化也说明了方法的有效性,如图 3 所示。

表 1 当前主流的对抗攻击方法下的对比实验

图 3 噪声灭活前后样本的在特征空间的分布,相同颜色表示同意身份的样本

由于我们的方法不需要针对特定的人脸识别模型进行设计和优化,因此是一个可以应用于所有识别模型、即插即用的方法。为了验证这一点,我们在当前主流的人脸识别商用API上进行了测试,如图 4 所示。实验结果也证明了这一点。

图 4 在主流商用API上的测试结果

结论

在本文中,我们探讨人脸识别系统面临的对抗攻击的特点和挑战。针对这些挑战,我们提出了针对人脸识别任务的对抗防御方法。在探索了不同子空间中的扰动对人脸识别相似性度量的影响的基础上,我们发现扰动子空间是攻击对识别模型影响的关键因素。基于这一发现,我们提出了一种新颖的对抗性防御方法,通过将样本投影至免疫空间来激发人脸识别模型对扰动的固有鲁棒性,实现对抗防御。并提出了可学习的 PCA 来分段线性估计免疫空间。实验结果证明了所提出的方法对不同类型的对抗攻击具有较好的泛化能力。同时,我们提出的方法是一种即插即用的方法,无需额外调整即可应用于不同的人脸识别系统。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值