链接:https://openaccess.thecvf.com/c
本文发表于CVPR2022
Abstract
最近的研究表明,最先进的深度神经网络容易受到模型反转攻击,其中滥用对模型的访问来重建任何给定目标类的私有训练数据。现有的攻击依赖于访问完整的目标模型(白盒)或模型的软标签(黑盒)。然而,在更困难但更实际的情况下,之前没有做任何工作,在这种情况下,攻击者只能访问模型的预测标签,没有置信度度量。在本文中,我们介绍了一种算法,即边界排斥模型反转 (BREP-MI),仅使用目标模型的预测标签反转私有训练数据。我们算法的关键思想是评估模型在球体上的预测标签,然后估计到达目标类质心的方向。以人脸识别为例,我们展示了 BREP-MI 重建的图像成功地再现了各种数据集和目标模型架构的私有训练数据的语义。我们将 BREP-MI 与最先进的白盒和黑盒模型反转攻击进行比较,结果表明,尽管假设对目标模型的了解较少,但 BREP-MI 优于黑盒攻击,并取得与白盒攻击相当的结果。
Introduction
现有的MI攻击要么假设攻击者拥有目标模型的完整知识,要么假设攻击者可以查询模型并将模型的输出作为可信分数接收。前者和后者通常分别被称为白盒威胁模型和黑盒威胁模型。现有的白盒MI攻击的基本思想是综合在目标模型下达到最大似然的敏感特征。综合的实现是一个梯度上升算法。相比之下,现有的黑盒攻击是基于训练攻击网络,该攻击网络根据输入置信度得分预测敏感特征。尽管只关注这两种威胁模型,但在实践中,ML模型通常被打包到一个只在查询时产生硬标签的黑盒中。这种只有标签的威胁模型更为现实,因为在面向用户的服务中部署的ML模型不需要公开原始置信度分数。
然而,考虑到攻击者可访问的信息有限,设计纯标签MI攻击比设计白盒或黑盒攻击更具挑战性。
在本文中,我们介绍了一种用于只有标签设置的MI攻击的通用算法BREP-MI,基于硬标签的反演攻击,攻击者只有模型预测的标签,没有置信度分数。论文提出的算法的关键思想是评估模型的预测标签在一个球体上,然后估计到达目标类的质心的方向。攻击可以分为targeted也可Untargeted。
文章的主要思想与白盒类似,仍然尝试在目标模型下合成目标类最大可能性输入,然而只有在标签的设置下,不能直接计算梯度信息并利用他来知道数据综合,本文认为解决这个挑战的关键见解就是给定类的高可能性区域通常是位于类的中心,远离决策边界,本文的这种算法就是允许合成图像迭代的远离决策边界。因此,我们设计了一种算法,允许合成图像迭代地远离决策边界,如图1所示。我们从理论上证明了对于线性目标模型,从球体上查询的硬标签估计的方向与梯度方向对齐。我们的经验表明,BREP-MI也可以成功攻击基于深度神经网络的目标模型。特别是攻击效果甚至高于现有的黑盒攻击,与现有的白盒攻击相当。
图1 BREP-MI的直观解释。(A)首先在一个球体上查询标签,并估计球体上可能导致目标标签类的方向。(B)根据估计方向更新合成图像。在估计和更新之间交替进行,直到球体适合目标类。(C)增加球体的半径。(D)重复上述步骤,直到攻击达到某个查询预算。
Contributions:
提出了第一种仅用于标签模型反转攻击的算法。
通过证明算法中使用的更新与梯度一致性,并分析非线性模型的一致性误差误差,在线性目标模型情况下为算法提供了理论证明。
评估了对一系列模型架构和数据集的攻击,然后表明,尽管利用的目标模型信息较少,但我们的攻击仍大大优于基于置信度的黑箱攻击,并取得了与最先进的白箱攻击相当的性能。
算法的主要流程可以理解为:
查询球体上的标签,估计球体上可能指向目标标签类的方向
根据估计的方向逐步移动,直到找到球体适合目标类
增加球体半径,知道攻击达到查询预算
Threat Model:
目标模型:
目标类c*∈C
模型输入的维度:d
C:所有类标签的集合
|C|:标签集的大小
本文给定目标分类网络f,攻击者可以在任意输入x处查询目标网络,并得到相应的预测标签:
Target labels:
我们的方法既不对目标模型架构进行假设,也不要求攻击者拥有任何关于它的信息。换句话说,我们的方法是模型不可知的。
如果目标是找到n个输入图像,使n个预定义标签集合最大化时,攻击者可以是有针对性的
如果目标是找到n个输入图像,使任意n个标签集合最大化时,攻击者可以是无针对性的的
问题公式化:
我们首先将MI攻击定义为一个优化问题。然后,我们描述了一种仅基于预测标签估计MI优化目标梯度的算法。在不损失通用性的情况下,单个目标标签的攻击问题公式为:
其中c *是目标标签。Mc * (x)表示目标类c *与其余类中最有可能的标签之间的logit(或置信度)差值。注意,当x被预测为目标类时(即c∗= arg maxc∈c fc(x)), Mc∗(x) > 0。显然,目标类c *的最具代表性的输入应该与所有其他类最有区别。因此,我们将MI问题转换为一个优化问题,寻求在目标类的置信度与其他类的最高置信度之间实现最大差异的输入:
此时,MI转换成优化问题,寻求的输入在目标类的置信度和其他类的最高自信度之间实现最大差异
为了解决在高维连续数据空间中,进行优化容易陷入与任何有意义的图像都不对应的局部最小值,本文用公共数据集训练GAN,然后对GAN的生成器进行优化。MI攻击是一个优化问题,希望能Argmax Mc(G(z))。c*表示目标类,M是目标模型,G是在Pubilc data上训练好的Gan,z是输入Gan的初始化向量,后面步骤就是通过调整输入G的向量,让G生成能让M输出分类到c*的图片,表示已经通过查询M实现了private数据c*的预测。
G(z):公共训练的生成器z ∈ d',d'<d
MI就更新为优化z的函数:
不能直接用梯度优化,也不能用零阶优化算法(因为它们需要访问模型输出的置信分数)
BERP-MI算法:
算法流程:
首先对球体上的点进行采样,然后查询采样点的标签。
没有预测到的目标类中的点表示我们要远离的方向,对这些值取平均,并沿着与平均相反的方向移动。
如果所有的点都预测到目标类中,增加半径。
公式
我们算法背后的直觉是,一个点离类的决策边界越远,这个点对类的代表性就越大。因此,任何一个阶级的质心都应该是它的良好代表。受此启发,我们设计了一种算法,试图逐渐远离决策边界。在高层次上,我们的算法首先在一个球面上采样点,然后查询它们的标签。直观地说,没有被预测到目标类中的点表示我们想要远离的方向。因此,我们对这些点取平均值,并朝着与平均值相反的方向移动。如果所有的点都被预测到目标类中,那么我们将增加半径。设sign(·)是一个函数,如果输入为正则返回1,否则返回−1。我们定义Φc∗:Rd→{−1,0}:
Φc∗ (z) 标记未预测到目标类中的点
梯度估计公式:
Un:在半径为R的d’维随机均匀采样的点;N: 采样点的个数
更新z:
BREP-MI 是从正确分为目标类的初始点开始,为了确保这一点直接生成属于目标类的点。
伪代码:算法1给出了BREP-MI的伪代码。BREP-MI从被正确分类为目标类的初始点开始。为了确保这一点,从GAN中采样图像,直到生成属于目标类的点。请注意,初始点虽然被划分为目标类,但几乎从来都不是目标类的代表性点。球体的半径被初始化为一个合理的小值。然后,算法将尝试迭代地远离决策边界。在每次迭代中,我们以当前点为中心的半径R对球面上的N个点进行采样,并从目标模型中查询它们的标签。如果将所有点都归为目标类,则半径增大;否则,我们使用Eq.(6)估计
,并根据Eq.(7)更新z。注意,如果新的点z位于目标类之外,更新将被恢复。在这种情况下,我们将重新采样球体上的点并计算一个新的更新。当不可能找到一个更大的球体,使得该球体上的所有样本都属于目标类时,算法将停止。算法的输出是一个点(z *),它具有可以放入目标类的最大球体。这表明该点离边界最远。我们将利用这一点来评估攻击。
在线性模型下,以下定理用来描述所提出的估计值与真实值之间的一致性;
Attack Justification:
f:具有线性分类的模型;z:目标类中任意的点,Mc∗ (z) >0,那么, 与 夹角的余弦值为
这表明对于梯度估计,估计量渐进无偏。结果表明,随着R的增加,估计的梯度将与真实梯度一致。然而,在某个拐点之后,增大半径只会降低估计的精度。
模型评估
本文评估方式指标为:
BREP-MI能否成功地攻击具有不同体系结构和不同数据集的深层网络?
BREP-MI需要多少查询才能成功执行攻击?
私有数据和公共数据之间的分布变化如何影响攻击性能?
BREP-MI对初始化和球体半径有多敏感?
最终本文发现,本文提出的方法在不同的数据集和模型架构上都有效,BERP-MI与最先进的白盒攻击效果相当,优于所有其他基线,比黑盒攻击性能好很多。