The Secret Revealer: Generative Model-Inversion Attacks Against Deep Neural Networks 翻译

引言

深度神经网络(DNN)已被广泛应用于计算机视觉、语音识别、医疗保健等领域。许多引人入胜的DNN应用涉及处理敏感和专有数据集,这引发了对隐私的重大担忧。特别是,当机器学习(ML)算法应用于私有训练数据时,生成的模型可能会无意中通过其输出(即黑盒攻击)或其参数(即白盒攻击)泄露有关训练数据的信息。

隐私攻击的一个具体例子是模型反演(MI)攻击,其目的是利用训练数据与模型输出之间的相关性来重建训练数据的敏感特征。算法上,MI攻击被实现为一个优化问题,寻求在目标模型下实现最大似然的敏感特征值。第一种MI攻击是在基因组隐私的背景下提出的[7],其中作者展示了对个性化医疗的线性回归模型的对抗性访问可以被滥用来推断训练数据集中个人的私人基因属性。最近的工作[6]将MI攻击扩展到其他设置,例如,仅凭他们的名字从面部识别模型中恢复一个人的图像,以及其他目标模型,例如逻辑回归和决策树。

到目前为止,有效的MI攻击只在前述的简单模型上得到证明。是否可能对DNN发起攻击并重建其私有训练数据仍然是一个未解决的问题。反演DNN的挑战来自于底层攻击优化问题的复杂性和不适定性对于神经网络,即使是具有一个隐藏层的网络,相应的攻击优化成为一个非凸问题;通过梯度下降方法解决它可能会很容易陷入局部最小值,导致攻击性能不佳。此外,在目标模型是DNN的攻击场景中(例如,攻击面部识别模型),要恢复的敏感特征(面部图像)通常位于高维、连续的数据空间中。在没有任何约束的情况下直接优化高维空间可能会生成缺乏语义信息的不切实际的特征

在本文中,我们专注于图像数据,并提出了一种简单而有效的攻击方法,称为生成模型反演(GMI)攻击,它可以反演DNN并以高保真度合成私有训练数据。支持我们方法的关键观察是,获取有关一般数据分布的信息可能相对容易,特别是对于图像案例。例如,对于面部识别分类器,对手可以随机从互联网上爬取面部图像,而不知道私有训练数据。我们发现这些数据集,尽管可能不包含目标个体,但仍然提供了关于面部图像可能如何构建的丰富知识;提取和适当制定这些先验知识将有助于规范原本不适定的反演问题。我们还超越了特定的攻击算法,探索了模型易受反演攻击的根本原因。我们展示了对于高度预测性模型,脆弱性是不可避免的,因为这些模型能够建立特征和标签之间的强相关性,这与对手利用来发起MI攻击的完全一致。

我们的贡献可以总结如下:(1)我们提议使用生成模型从公共数据集中学习有信息量的先验,以规范不适定的反演问题。(2)我们提出了一种基于GAN的端到端GMI攻击算法,可以以高保真度揭示DNN的私有训练数据。(3)我们提出了一个理论结果,揭示了模型的预测能力和其对一般MI攻击的易感性之间的基本联系,并实证验证了它。(4)我们进行了广泛的实验来展示所提出攻击的性能。(5)我们展示了差分隐私,当今的“黄金标准”隐私概念,对我们的攻击几乎没有保护作用,因为它没有明确旨在保护训练数据中属性的秘密。这引发了一个问题:属性隐私的正确概念是什么?回答这个问题是未来工作的重要部分。

在图像重建中MI被转化为一个优化问题,使用GAN网络通过在公有数据集上学习先验知识,能有效提升MI效率。

相关工作(差分隐私无法预防,本文方法的优越性)

针对机器学习(ML)模型的隐私攻击包括旨在揭示训练数据某些方面的方法。特别感兴趣的是成员资格攻击和模型反演(MI)攻击。成员资格攻击旨在确定给定个体的数据是否用于训练模型[19]。而MI攻击则旨在重建对应于特定目标标签的特征

与此同时,随着各种隐私攻击方法的出现,还有一系列工作在形式化隐私概念并开发具有形式化和可证明隐私保证的防御措施。隐私的一个主要定义是差分隐私(DP),它通过精心随机化算法,使算法的输出不过分依赖于任何个体的数据[5]。在ML算法的背景下,DP保证可以防止从训练模型推断出数据记录是否包含在训练集中的尝试[1]。根据定义,DP限制了成员资格攻击的成功率。然而,它并没有明确保护属性隐私,这是MI攻击的目标[7]。(这是由差分隐私的设计原理决定的

首次MI攻击是在[7]中演示的,作者提出了一种算法,可以在给定使用它们作为输入特征的线性回归、模型的响应以及输入的其他非敏感特征的情况下,恢复遗传标记。[11]提出了一种算法,允许在不知道非敏感特征的情况下通过适当投毒训练数据来执行MI攻击。尽管上述两篇论文提出的算法框架具有普遍性,但对攻击的评估仅限于线性模型。[6]讨论了将MI攻击应用于更复杂模型的情况,包括面部识别中的一些浅层神经网络。尽管攻击可以重建面部图像,其识别率远高于随机猜测,但恢复的面部图像确实模糊,几乎无法识别。此外,随着架构变得更加复杂,重建的质量趋于下降。[24]提出了训练一个单独的网络,该网络交换目标网络的输入和输出以执行MI攻击。反演模型可以与目标模型的黑盒访问一起训练。然而,他们的方法不能直接从白盒设置中受益。

此外,最近几篇论文开始形式化MI攻击,并从理论角度研究影响模型脆弱性的因素。例如,[22]使用布尔分析中的影响概念来表征布尔函数的模型可逆性;[26]形式化了模型对训练数据中特定个体构成的风险,并表明风险随着模型过拟合程度的增加而增加。然而,他们的理论假设对手可以访问私有特征和标签的联合分布,这对于许多攻击场景来说过于强大。我们的理论不依赖于这个假设,更好地支持了实验结果。

MI攻击的算法类似于特征可视化的工作[18, 27],它也试图重建一个最大程度激活目标网络的图像。我们的工作与现有的特征可视化工作不同,在于所提出的算法采用了一种新的优化目标,这导致更真实的图像恢复,并可以结合攻击者可能的辅助知识。

生成模型反演攻击

图1展示了我们GMI攻击的概览。在本节中,我们将首先讨论威胁模型,然后详细介绍我们的攻击方法。

威胁模型

在传统的MI攻击中,攻击者获得一个训练有素的模型,该模型用于预测特定标签,并使用它来预测训练期间使用的敏感特征。在本文中,我们将把受到攻击的模型称为目标网络。我们将专注于白盒设置,其中假设攻击者可以访问目标网络𝑓并使用某些推理技术来发现与特定标签𝑦相关联的特征𝑥。除了𝑓,攻击者还可能拥有一些辅助知识,这些知识有助于他的推理。我们将使用面部识别分类器作为目标网络的运行示例。面部识别分类器将包含面部的图像标记为与图像中描绘的个体相对应的标识符。相应的攻击目标是基于目标分类器参数恢复某些特定身份的面部图像。

可能的辅助知识:辅助知识的例子可能是只包含非敏感信息(如面部图像中的背景像素)的损坏图像,或者是模糊图像。这种辅助知识可能很容易获得,因为模糊和损坏通常被应用于公共数据集中以保护个人的匿名性[3, 16]。

与图像修复的联系:在图像上执行MI攻击的设置类似于计算机视觉中广泛研究的图像修复任务,它们也尝试填充图像中缺失的像素。然而,两者的目标不同。MI攻击试图填充与训练集中特定身份相关联的敏感特征。相比之下,图像修复任务只旨在为缺失区域合成视觉上真实和语义上合理的像素;合成的像素是否与特定身份一致不在考虑范围内。尽管存在差异,我们对MI攻击的方法借鉴了一些图像修复工作中的训练策略[25, 13, 23],并显著提高了重建图像的真实性,超越了现有的攻击方法。

推断缺失的敏感特征

为了真实地重建图像中缺失的敏感区域,我们的方法利用了生成器𝐺鉴别器𝐷,它们都是用公共数据训练的。训练后,我们的目标是找到在目标网络下具有最高可能性的潜在向量 𝑧^同时被限制在由𝐺学习的数据流形内。然而,如果设计不当,生成器可能不允许目标网络轻松区分不同的潜在向量。例如,在极端情况下,如果所有潜在向量生成的图像在目标网络的特征空间中坍缩到同一点,那么就无法确定哪一个更有可能出现在其私有训练集中。为了解决这个问题,我们提出了一个简单而有效的损失项,以促进由𝐺学习的数据流形在投影到目标网络特征空间时的多样性。

具体来说,我们的重建过程包括两个阶段:(1) 公共知识蒸馏,我们在此阶段在公共数据集上训练生成器和鉴别器,以鼓励生成器生成看起来真实的图像。公共数据集可以是未标记的,并且与私有数据集没有身份重叠。 (2) 秘密揭示,在此阶段我们利用第一阶段获得的生成器,并解决一个优化问题以恢复图像中缺失的敏感区域。

对于第一阶段,我们利用了标准的WassersteinGAN[2]训练损失:

公式解读:(D是鉴别器,G是生成器,x是真实数据,z是潜在向量,G(z)是重建数据。鉴别器的目的是尽可能发现G(z)重建数据的不真实性,生成器的作用是最小化x与G(z)重建数据之间的区别)

当攻击者可以获得辅助知识(例如,私有图像的模糊或损坏版本)时,我们让生成器将辅助知识作为额外的输入。此外,当额外知识是损坏的图像时,我们采用两个鉴别器来区分图像是真实的还是人工的,类似于[13]。全局鉴别器查看重建的图像以评估其是否作为一个整体是连贯的(这里的“真实”是指图像作为一个整体是否具有合理的结构、纹理和内容,就像它是由真实世界的相机拍摄的一样),而局部鉴别器只查看包含遮罩边界的随机选择的补丁,以确保生成补丁在边界区域的局部一致性(局部鉴别器只查看随机选择的、包含边界的图像补丁,以确保这些局部区域在细节上是一致的,与周围的真实图像融为一体。局部鉴别器的目的是提高生成图像在细节层面的真实性,尤其是在图像的边缘和遮罩区域,这些地方往往是合成图像最容易露出破绽的地方)。然而,与[13]不同,它通过一个连接层将两个鉴别器的输出融合在一起,预测图像为真实的概率值,我们允许两个鉴别器有单独的输出,因为我们发现这在实证上使训练损失更快地收敛。GAN的详细架构在补充材料中呈现。

此外,受到[23]的启发,我们引入了一个多样性损失项,它促进了𝐺在投影到目标网络特征空间时合成图像的多样性。设𝐹表示目标网络的特征提取器。因此,多样性损失可以表示为:

公式解读:这个公式使得潜在向量z1和z2重建的数据G(z1)和G(z2)之间的差异尽可能的大

如上所述,更大的多样性将有助于目标网络辨别最有可能出现在其私有训练集中的生成图像。我们的公共知识蒸馏的完整目标可以写成:

公共知识蒸馏阶段的优化目标:(鉴别器尽可能发现重建数据和真实数据的区别,生成器尽可能使得重建数据和生成数据之间的区别更小,生成器使用不同的潜在向量重建的数据之间的区别尽可能大)

在秘密揭示阶段,我们解决以下优化问题,以找到生成在目标网络下达到最大似然的图像的潜在向量,同时保持图像的真实性:

其中先验损失 𝐿prior(𝑧) 对不真实的图像进行惩罚,身份损失 𝐿id(𝑧) 鼓励生成的图像在目标网络下具有高似然性。它们分别定义为:

其中 𝐶(𝐺(𝑧))表示目标网络输出 𝐺(𝑧)的概率。

模型预测能力与MI攻击之间的联系

对于固定数据点(𝑥,𝑦),我们可以使用对数似然log⁡𝑝𝑓(𝑦∣𝑥)来衡量模型𝑓预测特征𝑥的标签𝑦的性能。众所周知,最大化对数似然等同于最小化交叉熵损失——这是训练深度神经网络(DNNs)最常用的损失函数之一。因此,在接下来的分析中,我们将专注于对数似然作为模型性能的度量

现在,假设(𝑋,𝑌)是从未知数据分布𝑝(𝑋,𝑌)中抽取的。此外,𝑋=(𝑋𝑠,𝑋𝑛𝑠),其中𝑋𝑠和𝑋𝑛𝑠分别表示特征的敏感和非敏感部分。我们可以将模型𝑓下敏感特征𝑋𝑠的预测能力(或者等价地说,使用𝑋𝑠的模型𝑓的预测能力)定义为从输入中排除它时模型性能的变化,即

类似地,我们定义给定特定类别𝑦和非敏感特征𝑥𝑛𝑠下敏感特征的预测能力为

现在我们考虑MI攻击性能的度量。回想一下,对手的目标是基于相应的标签𝑦、模型𝑓和一些辅助知识𝑥𝑛𝑠来猜测𝑥𝑠的值最佳的攻击结果是恢复敏感特征的整个后验分布,即𝑝(𝑋𝑠∣𝑦,𝑥𝑛𝑠)。然而,由于对手可用的信息不完整,对手在攻击模型下能够实现的最佳可能攻击结果可以通过

来捕捉,假设对手可以相当准确地估计𝑝(𝑋𝑠∣𝑥𝑛𝑠)例如,通过使用第3.2节中的方法从公共数据集中学习,可以获得这样的估计。尽管MI攻击算法通常输出一个单一的特征向量作为攻击结果,但这些算法可以通过随机化特征的初始猜测来适应输出特征分布而不是单一点。因此,很自然地用𝑝(𝑋𝑠∣𝑦,𝑥𝑛𝑠)和𝑝𝑓(𝑋𝑠∣𝑦,𝑥𝑛𝑠)之间的相似性来衡量MI攻击的性能(p代表重建的,pf代表真实的)。下一个定理指出,如果敏感特征在模型下具有高度预测性,则对MI攻击的脆弱性是不可避免的。在陈述定理时,我们使用负KL散度𝑆𝐾𝐿(⋅∣∣⋅)来衡量两个分布之间的相似性

定理1. 让𝑓1和𝑓2是两个模型,使得对于任何固定的标签𝑦∈𝑌,有𝑈𝑓1(𝑥𝑛𝑠,𝑦)≥𝑈𝑓2(𝑥𝑛𝑠,𝑦)。那么,𝑆𝐾𝐿(𝑝(𝑋𝑠∣𝑦,𝑥𝑛𝑠)∣∣𝑝𝑓1(𝑋𝑠∣𝑦,𝑥𝑛𝑠))≥𝑆𝐾𝐿(𝑝(𝑋𝑠∣𝑦,𝑥𝑛𝑠)∣∣𝑝𝑓2(𝑋𝑠∣𝑦,𝑥𝑛𝑠))。

我们把定理的证明放在补充材料中。直观地说,高度预测性的模型能够在特征和标签之间建立强相关性,这与对手发起MI攻击所利用的完全一致;因此,更多的预测能力不可避免地导致更高的攻击性能

在[26]中,有观点认为,如果一个模型过度拟合数据,它更容易受到MI攻击。他们的结论似乎与我们的相矛盾,因为在固定训练性能的情况下,更多的过度拟合意味着模型的预测能力更弱。然而,他们结果的基本假设与我们的完全不同,这导致了差异。[26]中的结果假设对手可以访问私有训练数据所来自的联合分布𝑝(𝑋𝑠,𝑋𝑛𝑠,𝑌),并且他们设定的MI攻击的目标是学习特定训练数据集中给定标签的敏感特征。相比之下,我们对MI攻击的设定是从模型参数中学习给定标签𝑦的私有特征分布𝑝(𝑋𝑠∣𝑦,𝑥𝑛𝑠)。我们不假设对手具有𝑝(𝑋𝑠,𝑋𝑛𝑠,𝑌)的先验知识,因为对于我们的设定来说,这是一个过于强的假设——当对手访问联合分布时,对手可以很容易地获得任何标签和任何非敏感特征值的𝑝(𝑋𝑠∣𝑦,𝑥𝑛𝑠)。

实验(略)

结论

本文我们提出了一种生成模型反演攻击的方法,它在攻击高维输入数据的深度神经网络方面达到了最先进的成功率。我们方法的理念是通过生成对抗网络从公共数据中提取一般性知识,并利用这些知识来规范反演问题。实验结果显示,即便公共数据集不符合以下条件:(1)包含攻击者想要恢复的身份,(2)未进行标记,(3)规模较小,(4)与私有数据来自不同的分布,我们提出的攻击方法仍然具有很高的性能。我们还进行了理论分析,揭示了模型的预测能力与其易受反演攻击的脆弱性之间的根本联系。在未来的工作中,我们有兴趣将这种攻击方法扩展到黑盒环境中,并研究对抗MI攻击的有效防御策略。

 代码

GitHub - AI-secure/GMI-Attack

  • 25
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值