Privacy Leakage on DNNs: A Survey of Model Inversion Attacks and Defenses 翻译

[Fredrikson等人,2014]首次在基因组隐私的背景下引入了MI攻击,并揭示了通过最大化给定线性回归模型的后验概率可以恢复基因标记。随后的研究[Fredrikson等人,2015;Song等人,2017;Yang等人,2019]进一步将MI攻击扩展到更多的机器学习(ML)模型和数据形式,使用其他优化算法,如梯度下降。尽管这些前述方法在传统ML场景中对浅层网络和简单数据表现出色,但当攻击更深层次、更广泛的DNNs时,其有效性显著降低,尤其是在训练更复杂和高维数据(如RGB图像)时。

为了应对这一挑战,最近的研究做出了巨大努力,并在攻击图像数据方面取得了显著改进。生成对抗网络(GANs)[Goodfellow,2016]首次由[Zhang等人,2020]引入到模型反演中,大多数这些方法利用它们作为图像先验以获得更好的重建结果。具体来说,[Zhang等人,2015]提出使用公开可用的数据训练GAN模型以生成目标类别的高保真图像。得益于训练好的GAN模型中编码的先验信息,重建性能得到了显著提升。此外,MI研究已扩展到自然语言处理(NLP)任务[Carlini等人,2019],特别是对于大型语言模型(LLMs)的隐私泄露风险,例如ChatGPT。用户可以生成基于文本的查询并与ChatGPT交互,人们担心通过模型的响应无意中暴露敏感信息[Nasr等人,2023]。与此同时,用于训练图神经网络(GNNs)的图数据也容易受到MI威胁[Zhang等人,2021]。为了保护训练数据免受强大的MI攻击,已经提出了一系列防御策略来增强训练模型的安全性。这些方法中的大多数通过向输出预测添加扰动来防御MI攻击[Yang等人,2020],而其他一些则更倾向于将精心设计的机制整合到目标模型的训练过程中[Wang等人,2021b]。

尽管来自不同模态的训练数据存在隐私问题,但目前尚无全面概述其进展的综合概述。最近的研究[Dibbo,2023]主要关注表格和图像数据MI攻击的多样化分类和挑战,或者[Jegorova等人,2022]在推理阶段各种类型隐私攻击中简要介绍了几种代表性的MI攻击。与此相反,我们对DNNs在多个模态和不同学习任务上的高级MI攻击和防御进行了系统和详尽的回顾,提供了对该领域的深入探索。

模型反演概述

模型反演的基本概念

模型反演[Fredrikson 等人,2014; Wang 等人,2021a] 是一种旨在通过反转给定的预训练模型 fθ 来恢复私有训练数据集 X(如图像、文本和图形)的攻击类型。与仅揭示训练数据部分信息的成员资格推断攻击或属性推断攻击不同[Jegorova 等人,2022],MI 使攻击者能够完全重建私有训练样本,这引起了日益增长的担忧。

不同模态中的 MI

为了更好地理解不同模态之间的区别,我们根据现有的三种模态的 MI 研究细化了整体概况。接下来,我们按照图像(见第 3 节)、文本(见第 4 节)和图形(见第 5 节)的顺序,详细说明了 MI 攻击和防御。

学习任务:计算机视觉和图学习中的受害者模型主要用于分类任务。另一方面,大多数针对文本数据的攻击针对的是生成任务的语言模型。受害者模型的不同学习任务进一步导致不同的攻击策略。

攻击的分类:为了更好地分析和比较不同的重建方法,我们通常根据攻击者的能力与知识,将这三种模态的方法分为白盒和黑盒设置。具体来说,白盒场景意味着攻击者可以完全访问目标模型的权重和输出。相反,在黑盒设置中,只有预测的置信度概率或硬标签可用

考虑到不同模态的区别,我们进一步为每种模态提供了更详细的 MI 攻击摘要或分类。在视觉任务中,MI 攻击被制定为一个优化问题。然后我们拆解优化过程,并在表 1 中总结了代表性攻击的主要特征。由于文本生成模型的性质,NLP 领域出现了多种形式的攻击。我们根据获取重建句子的关键策略将它们归类为三个范式:嵌入优化、标记搜索和恶意提示设计。对于图学习,研究人员研究了图数据的离散结构,并提出了强大的反演技术,可以归类为:邻接优化、逆映射和关系推理

防御的分类:由于 MI 攻击主要利用模型输出中的丰富信息或受害者模型输入和输出之间的相关性,不同模态的防御主要集中于从这两个角度提高安全性,因此可以统一分为两种类型:模型输出处理健壮模型训练

计算机视觉方面的模型反演攻击

本节主要介绍计算机视觉方面的模型反演攻击以及防御。

隐私图像重建

我们首先阐明了在DNNs上MI的一般威胁模型。为了更好地澄清这些方法的关键技术,我们从四个角度分解了攻击范式并分析了它们:生成模型、数据初始化、攻击过程和额外的通用技术。 由于生成先验带来的显著改进,生成模型已经被纳入了DNNs上MI后续研究的基本范式[Zhang等人,2020; Wang等人,2021a; Yuan等人,2023]。

图1概述了一个典型的基于GAN的模型反演攻击的威胁模型。给定以权重θ参数化的图像分类器fθ和训练好的生成器G,攻击者试图从高斯分布初始化的潜在向量z中恢复私有图像x*

其中c是目标类别

表示分类损失λ是一个超参数

是先验知识正则化(先验知识可以是关于数据分布的假设,也可以是对模型参数的一些约束。正则化过程中,这些先验知识被编码为损失函数的一部分,通常以惩罚项的形式出现,例如,鉴别器损失。第一项测量与私有数据的偏差,而最后一项作为图像先验来提高重建图像的质量。在发起攻击之前,对手训练一个专门的生成器或使用预训练的生成器作为目标图像的先验信息。然后,他们利用生成器生成虚拟图像并将它们输入到目标分类器中在恢复过程中,攻击者通过最小化等式(1)中的损失函数来迭代更新潜在向量z。一旦获得最优的z*,就可以通过x* = G(z*)生成与私有图像紧密对齐的重建图像(隐私图像重建的思路)

生成模型

早期研究直接搜索图像像素执行MI攻击,这些攻击局限于浅层网络和灰度图像。通过利用强大的生成模型,后续研究成功解决了这个问题,并在RGB图像的DNNs上取得了显著改进。具体来说,[Zhang等人,2020; Chen等人,2021; Nguyen等人,2023a]在一个与私有数据具有相似图像结构的大型公共数据集上训练了GAN模型。他们使用不同的GAN模型,针对MI场景进行定制,并为生成对抗训练设计了特殊的损失函数。此外,这些方法通过利用来自目标模型的侧信息进一步增强了攻击效果,例如,使用目标模型提取的特征为生成器提供辅助知识[Nguyen等人,2023a]。

然而,由于GAN训练的辅助数据集容量有限且质量较差,训练出的生成器只能重建64×64的低分辨率图像。此外,进行对抗性训练会产生昂贵的计算开销,并消耗大量时间。一个可行的解决方案是利用从大型公共数据集学习的大型预训练GANs[An等人,2022; Struppek等人,2022]。与使用低质量辅助数据集手动训练的GANs相比,这些预训练的生成器通常具有更复杂的结构,包含更丰富的语义信息,能够实现高达224×224的更高分辨率图像重建。[Liu,2023]用条件扩散模型[Ho和Salimans,2022]替代了GANs。具体来说,他们利用目标模型分类的伪标签作为条件来指导去噪过程。这种方法在与以前的基于GAN的方法相比,特别是在人类感知距离(例如,LPIPS [Zhang等人,2018])方面显示出显著的改进。

数据初始化

分辨率:我们在表1中总结了不同方法使用的图像分辨率。鉴于更多的图像像素意味着需要优化更多的参数,MI攻击的难度在很大程度上取决于恢复图像的分辨率。早期的MI方法采用重建低分辨率图像,例如GMI [Zhang等人,2020] 和 KEDMI [Chen等人,2021]。为了使攻击能够应用于更高分辨率的图像,后续研究引入了更强大的GAN模型(例如StyleGAN [Karras等人,2019]),并成功恢复了224×224分辨率的图像。

预处理:虽然 [Zhang等人,2020; Chen等人,2021] 从特定分布中随机采样,[Yuan等人,2022; Struppek等人,2022] 强调一批适当初始化的潜在向量往往能够产生更好的重建结果。具体来说,他们选择那些对应图像能够被受害者模型正确分类为目标标签的潜在向量。为了进一步增强预处理,[Ye等人,2023] 通过对潜在向量进行优化,最小化从虚拟图像提取的特征与给定标签反演得到的特征之间的L2距离。

攻击过程

白盒攻击:如表1所总结,白盒攻击通常应用Momentum SGD或Adam优化器来进行反演。它们大多数使用从交叉熵(CE)损失计算的梯度来搜索潜在代码。考虑到CE损失受到梯度消失问题的影响,研究人员提出使用Poincaré损失 [Struppek等人,2022] 或最大边界损失 [Yuan等人,2023] 来缓解这个问题。此外,[Nguyen等人,2023b] 重新思考优化目标,并强调MI的基本目标是重建与目标类别高度一致的图像,而不是偏离非目标类别。由于CE损失本质上结合了这两个目标,他们建议绕过交叉熵损失中的softmax函数,直接最大化目标类别的置信度,即负对数似然(NLL)损失

正如第1节提到的,为了确保生成图像的真实性,引入了各种正则化项作为先验知识。其中一个代表性的尝试是使用鉴别损失项

。然而,[Struppek等人,2022] 表明

可能会通过使生成的图像与公共数据的分布而不是私有数据的分布相匹配,从而降低反演性能。为了避免这种分布偏移,随后的MI方法不再使用这个损失项。[Wang等人,2021a] 将MI攻击表述为变分推断过程,并引入KL散度作为正则化,以更好地用变分分布

逼近目标数据分布。LOMMA [Nguyen等人,2023b] 通过添加一个

项作为重建样本特征和公共图像特征之间的距离度量,充分利用目标模型中的倒数第二层表示。基于动态记忆库,[Qi等人,2023] 通过设计一种新颖的正则化项

来增加反演图像的多样性,其中

分别表示类内多中心表示(IMR)和类间辨别表示(IDR)损失。IMR为类内图像提供多个独特的特征,以防止过度拟合特定图像特征IDR存储每个类别的历史知识,鼓励重建具有更多可区分特征的图像

与这些专注于实例级重建的方法不同,[Chen等人,2021]旨在为给定标签恢复私有数据分布,使用可学习的高斯分布

。他们采用重参数化技巧使损失可微分,并进一步优化 𝜇和𝜎。攻击者随后可以直接从学习到的分布中采样 𝑧以生成敏感图像。

黑盒攻击:与白盒设置不同,这些攻击无法访问目标模型内的任何信息。因此,梯度不能再使用反向传播操作计算。[Yuan等人,2022]提出了解决这个问题的直接方法。他们首先从随机噪声中采样大量潜在向量,并选择那些能生成被预测为正确标签的图像的向量。然后,所选择的向量仅基于鉴别器损失进行优化。[Han等人,2023]引入了一种基于强化学习的MI攻击,该攻击利用置信度分数提供奖励,并使用soft actor-critic(SAC)算法优化代理。

仅限标签场景:BREPMI [Kahla等人,2022]使用梯度估计来解决仅硬标签可用的情况。通过随机采样𝑁个单位向量𝑢,使用半径为𝑟的球面上的采样点来估计潜在向量𝑧的梯度


 


其中Φ𝑐(⋅)表示一个函数,如果生成的图像被分类为目标类别𝑐,则等于零,否则为 -1。在优化过程中,BREPMI逐渐增加𝑟的值以准确估计梯度。[Nguyen等人,2023a]通过反演多个替代模型而不是黑盒受害者模型,将这个问题转变为白盒场景。这涉及到使用从受害者模型引导训练的ACGAN生成大量虚拟样本(生成对抗网络(GAN)的变种——条件生成对抗网络(Conditional GAN,简称ACGAN)。接下来,使用这些虚拟样本训练多个分类器,作为受害者模型的替代品。[Liu,2023]使用带有伪标签的辅助数据集训练类条件扩散模型。训练好的扩散模型随后直接用于生成目标图像,无需进一步优化。

无梯度优化器:与上述方法正交,[An等人,2022; Ye等人,2023]探索无梯度优化技术,并执行遗传算法,该算法利用当前种群的距离和方向信息来寻找最优潜在向量。

搜索空间:大多数先前的研究集中在GAN的潜在空间𝑍中寻找最优向量。然而,[An等人,2022] 表明,随着分辨率的提高,由于空间稀疏性,这种优化变得约束不足。在𝑍空间中的特征纠缠是另一个挑战,它进一步阻碍了优化过程,因为具有相似特征的图像可能不对应于类似的潜在向量。StyleGANs [Karras等人,2019] 通过映射网络 Gmapping :ZW将潜在空间转换为更易于解耦的 W 空间。因此,在 W 空间中搜索可以缓解这些问题,并已被一系列后续研究采用 [Struppek等人,2022; Ye等人,2023]。考虑到对W分布建模的难度,[An等人,2022] 提出了 P 空间的概念,即位于映射网络中最后一个 LeakyReLU 函数之前的特徵空间,以约束目标分布内的最终 W 向量首先从𝑍空间中采样大量向量,以计算 P 空间中激活值的均值μ 和方差 𝜎给定在W空间中优化的W,攻击者首先通过将W投影到P空间来获得𝑝。然后𝑝被限制在范围[μσ,μ+σ]内,并重新投影回W空间。此操作在确保这些控制保持在所需分布内的同时,保留了W空间的风格控制能力。

附加的通用功能

各种创新技术已经被探索并整合到众多研究中。接下来,我们将补充一些通用机制的详细回顾。

伪标签引导(伪标签(Pseudo Label)是一种半监督学习技术中使用的术语,指的是在没有真实标签可用的情况下,用模型自身的预测结果作为标签。):伪标签已被用来引导生成器[Yuan等人,2023; Liu,2023]和鉴别器[Chen等人,2021]的训练。具体来说,目标模型被用来对使用私有数据集标签的公共图像重新分类由于目标模型是在私有数据集上训练的,使用伪标签利用了私有训练数据中的额外信息,从而增强了在这些辅助标记图像上训练的生成器或鉴别器的能力

增强:许多研究已将各种增强技术整合到MI工作流程中以提高攻击效果。[Yuan等人,2022]采用顺序裁剪作为图像的数据增强,以改进初始潜在向量的选择。[Struppek等人,2022; Liu,2023]通过对重建结果进行图像转换,并根据目标模型的输出置信度来选择结果。此外,[Yuan等人,2023]在将生成的图像输入到目标模型之前对其进行随机增强,以在GAN训练期间提供更稳定的收敛到现实图像。除了传统数据增强,[Nguyen等人,2023b]提出了一种称为模型增强的新方法。这涉及到使用模型蒸馏技术从目标模型训练几个辅助模型。在MI过程中,攻击者利用原始目标模型和训练的辅助模型的集成来计算损失函数。通过增强替代模型,这种策略减轻了对目标模型的过拟合,并鼓励恢复的图像捕获私有数据的更多独特特征。

模型蒸馏技术(Model Distillation)是一种模型压缩和加速的方法,旨在将一个大型、复杂的模型(通常称为“教师模型”或“源模型”)的知识转移到一个更小、更简单的模型(称为“学生模型”)。

结果选择:[Struppek等人,2022]指出,DNNs在它们的预测中常常表现出过度自信,从而导致攻击结果的迁移性差。更具体地说,尽管一些重建图像被目标模型以高置信度标记,但当用另一个模型评估时却得到低分。为了克服这一挑战,[Struppek等人,2022; Liu,2023]在用目标分类器对它们进行分类之前,对生成的图像应用数据增强。通过在增强后选择具有最高置信度得分的结果,这种方法比原始方法实现了更高的攻击精度和更好的迁移性。

抵御图像数据的MI攻击

模型输出处理。由于MI攻击利用了目标模型输出中的冗余信息,一种可行的防御策略是通过模糊输出置信度分数来减少这种冗余。[Yang等人,2020]训练了一个自动编码器作为净化器来处理置信度向量,减少其分散度。为了进一步提高自动编码器的能力,他们采用了对抗学习策略,在共同训练其他反演模型作为对手的同时优化净化器。[Wen等人,2021]通过最大化MI攻击误差来生成对抗性噪声到置信度分数,进一步导致重建图像混乱。他们还通过一个精心设计的标签修改器保持了主要任务的准确性。[Ye等人,2022]设计了一种基于差分隐私的方法,将分数向量分成多个子范围,并应用指数机制来替换和规范化每个子范围内的值。这种机制在理论上被证明可以确保差分隐私并提高目标模型对MI的鲁棒性。

健壮模型训练:MID [Wang等人,2021b]强调MI攻击利用了目标模型fθ的输入X和输出

之间的相关性,因此提出在训练过程中对X和Y之间的互信息进行惩罚。训练目标可以表示为(把近似互信息加入损失函数中)

其中y是真实标签,𝐿(⋅,⋅)表示主要任务的损失𝐼(⋅,⋅)是近似互信息,λ是平衡隐私和效用的系数。

尽管MID在隐私和模型性能之间遇到了困境,因为第二项(近似互信息)与主要任务损失冲突。[Peng等人,2022]提出了双边依赖优化(Bilateral Dependency Optimization, BiDO)来解决这个问题。BiDO不是直接减少输入和输出之间的相关性,而是在最小化输入和潜在表示之间的依赖性的同时,最大化潜在表示和输出之间的依赖性。[Gong等人,2023]从另一个角度误导攻击者。他们使用公共数据集训练一个GAN和一个公共分类器。随后,对手对受害者模型和公共分类器执行MI攻击,以生成私有和公共的虚假样本。然后,攻击者使用生成的虚假样本微调受害者模型,这最小化了公共样本的分类损失,同时最大化了私有样本的分类损失,从而欺骗攻击者反转与私有图像显著不同的样本。

[Titcombe等人,2021]通过在传输到计算服务器之前向中间表示添加拉普拉斯噪声来防御分割学习场景中的MI。沿着这一思路,[Li等人,2022]考虑了分割联邦学习(Split Federated Learning, SFL),并引入了一个两步框架,涉及预先训练一个针对对抗性反演模型的健壮模型C*,然后将C*作为初始模型转移到客户端。此外,在SFL训练期间采用了一种攻击者意识的微调技术,以增强MI抵抗力。

自然语言处理领域的模型反演攻击

在自然语言处理领域,处理自然语言文本的深度神经网络(DNN)模型也会遭受模型反演(MI)攻击的威胁。由于语言模型无意中记忆了信息[Carlini等人,2019],攻击者可以反演受害者模型,导致严重的隐私泄露。随着大型语言模型(LLMs)的发展,这种情况更加严重,因为这些模型是在包含大量敏感隐私信息的大规模文本语料库上训练的。

私有文本恢复

白盒攻击

这些攻击利用对受害者模型的完全访问权限,通过将重建过程制定为一个优化过程,并利用反向传播的梯度

嵌入优化:[Parikh等人,2022]通过对句子s中的每个标记(token)xi进行离散优(这里的“离散优化”指的是逐个确定每个词元的最佳位置或值。)化来攻击LSTM模型fθ,将其表示为logit向量zi以获得虚拟句子s的嵌入Es。给定目标标签y向量z1...zn通过从交叉熵损失L(fθ(Es), y)计算的梯度重复优化。(这个过程通过重复优化来进行,目的是找到一组向量,这些向量能够使模型以高置信度输出目标标签𝑦。)[Zhang等人,2023b]采用了提示学习范式,冻结了受害者GPT-Neo的参数(即不更新模型的权重,而是通过调整输入来影响输出。),并通过强制模型输出给定前缀a的目标后缀b来调整前句软提示嵌入S(“软提示”指的是在模型输入中加入的额外信息,用以指导模型生成特定的响应。)。学习到的提示S激发了目标语言模型的记忆,并诱导其以私有训练数据作出响应(即模型生成的文本与训练时使用的敏感数据相似。)。此外,他们引入了一个平滑正则化项,使后缀序列的损失分布更平滑。

黑盒攻击

由于在黑盒场景下梯度反向传播变得不切实际,研究人员开发了新的算法,即标记搜索恶意提示设计,以提取私有句子。

令攻击者感兴趣的是给定句子的前缀标记a = x1, x2, ..., xi,他们试图搜索生成句子剩余部分的最有可能性路径,即b = xi+1, xi+2, ..., xn。基于对后续标记搜索目标的不同,这些方法进一步细分为以下三部分:

困惑度度量搜索:[Carlini等人,2019]使用困惑度来衡量数据序列的概率。具体来说,给定一个序列s = x1...xn和目标生成序列模型fθ(例如LSTM,qRNN),困惑度Pθ(s)可以表示为:

其中Pθ(s)量化了给定序列的“惊讶”程度,较低的困惑度值表示语言模型更有可能见过该序列。通过这种方式,问题转化为寻找具有最小困惑度的序列。然而,直接枚举所有可能的序列并计算它们的困惑度会导致搜索空间呈指数级增长。已经提出了一系列机制来提高搜索效率。[Carlini等人,2019]使用Dijkstra算法的修改版本,通过避免访问不必要的序列路径有效减少搜索范围。随后的方法[Carlini等人,2021]采用基于贪婪的算法,在每次生成下一个标记的过程中只保留具有最高k个置信度的标记。此外,他们提供了几种技术来提高生成句子的多样性和增强攻击的准确性。[Yu等人,2023]采用前瞻机制来提高生成标记的质量。与仅依赖于下一个标记的概率进行k个选择不同,他们使用后续序列的后验概率来指导下一个标记xt的生成。

置信度度量搜索:考虑到情感分类任务,[Elmahdy等人,2022]搜索下一个标记以最大化由微调的BERT分类器预测的目标类别y的置信度分数为了对抗模型对高频标记的偏见,引入了一个正则化项来惩罚某些标记频繁出现。然而,这种方法也面临着搜索空间呈指数级增长的挑战。为了解决这个问题,[Elmahdy和Salem,2023]首先使用BERT和原始生成头生成具有最高k个置信度的候选标记,然后通过最大化分类头的标签y的概率来进一步选择

差异度量搜索:最近,预训练和微调范式越来越受欢迎。因此,一些攻击通过利用预训练模型M和微调模型M'之间的差异来反演微调数据集。考虑标记序列s = x1...xn,[Zanella-Béguelin等人,2020]定义了差异得分

,它衡量了M和M'输出概率之间的差异。直观地说,较大差异得分值表示微调模型M'更有可能在原始模型M没有的情况下看过序列s,即s属于微调数据集。通过执行束搜索,他们选择具有最高k个差异得分的下一个标记,并取得了显著的攻击成功率。

恶意提示设计:大型语言模型(LLMs)已经展示了强大的能力和巨大潜力。然而,一些研究表明,一些特别设计的提示可以使模型反转以输出敏感的训练数据。

如图2所示,将恶意提示输入到像GPT-Neo这样的语言模型中可能会造成严重的隐私信息泄露[Huang等人,2022]。更令人惊讶的是,[Nasr等人,2023]建议,通过简单地要求ChatGPT多次重复一个词,也可以提取数据。一个可能的原因是这导致模型“逃脱”了其对齐训练并恢复到其原始的语言建模目标。

抵御文本数据的MI攻击

模型输出处理:[Huang等人,2022]提出限制模型输出是一种有效的防御方法。他们建议在预测中过滤隐私敏感信息,例如,包括一个检测模块来检查输出文本是否包含敏感信息,并采取适当措施,如拒绝回答或屏蔽信息以确保隐私。

健壮模型训练:[Anil等人,2021]揭示,使用基于差分隐私的优化器变体训练的语言模型表现出改进的MI抵抗力,但代价是性能下降和计算增加。[Kandpal等人,2022]发现,训练数据去重有效地减少了受害者模型的记忆,从而提高了MI的鲁棒性。此外,语言模型的记忆本质上与过拟合有关。因此,正则化和早停也是可选的防御策略[Ishihara,2023]。

图学习领域的反演攻击

在图学习中的反演(MI)攻击利用图神经网络(GNNs)来重建私有图数据的拓扑结构。如图3所示,给定在私有图G上预训练的目标GNN fθ,对手的目标是推断邻接矩阵 𝐴^,然后将其转换为图 𝐺^ 以重建私有训练数据集。

私有图恢复

白盒攻击

同样,图数据的白盒攻击计算梯度以优化邻接矩阵以提取隐私信息

邻接优化:记目标GNN模型输出的预测向量或嵌入向量为H,即 𝐻=𝑓𝜃(𝐺)。初始化邻接矩阵 𝐴^0 以获得虚拟图 𝐺^0 和虚拟输出 𝐻^0=𝑓𝜃(𝐺^0)。通过最小化 𝐻^0 和 H 之间的距离 𝐿𝑟𝑒𝑐并使用梯度下降法,攻击者迭代更新 𝐴^以找到最优解。基于此,[Zhang et al., 2021] 提出了GraphMI,它使用投影梯度模块来解决图数据的离散性,同时引入特征平滑项和F-范数项以保持特征平滑度和稀疏性。[Zhou et al., 2023] 提出将 fθ 视为马尔可夫链,并通过灵活的链近似来优化 𝐴^,取得了出色的重建结果。

黑盒攻击

如图3所示,我们将黑盒攻击分为两类:逆映射和关系推理。

逆映射:[Duddu et al., 2020] 尝试反转原始映射 fθ 并构建逆映射。他们在辅助图数据集 Gaux 上训练一个自编码器,并使用解码器 Fdec 将 H 映射回 𝐺^,即 𝐺^=𝐹𝑑𝑒𝑐(𝐻)。然而,自编码器中的中间特征 Hint 的分布可能与 H 的分布不同。因此,[Zhang et al., 2022] 进一步使用 Gaux 查询 fθ 以获取 Haux(查询过程指的是将 𝐺aux输入到预训练的图神经网络 𝑓𝜃中,以生成对应的输出 𝐻aux),并使用 (Haux, Gaux) 对 Fdec 进行微调,以提高重建性能。

关系推理:这些攻击通过使用节点属性作为辅助知识,推理节点对之间的关系来重建 𝐺^。[He et al., 2021] 假设如果两个节点 u 和 v 具有更多相似的属性或预测,则它们是连接的。此外,[Wu et al., 2022] 认为如果在 u 和 v 之间存在边,则在训练期间 u 的信息将传播到 v。因此,他们假设如果改变 u 的特征向量可以在一定程度上影响 v 的预测,则 u 和 v 是连接的。

保护图数据免受互信息(MI)攻击

模型输出处理:[He et al., 2021] 限制GNN模型仅输出k个最大的后验概率,以提供较少的信息。[Zhang et al., 2022] 提议向模型的输出H添加拉普拉斯噪声,以误导攻击者。由于向H添加噪声可能导致效用下降,因此选择适当的噪声水平至关重要。

鲁棒模型训练:[Zhang et al., 2021] 在每次训练迭代中向裁剪的梯度添加高斯噪声,以确保差分隐私(DP)。然而,后续研究表明,确保DP不能有效防止MI攻击。相反,[Zhang et al., 2023a] 通过预处理训练图来隐藏真实边,例如随机翻转和重写。这一操作误导攻击者恢复与真实情况显著不同的虚拟数据。为了减少模型输入和输出之间的相关性,[Zhou et al., 2023] 在A中注入随机性,并在训练期间对图表示、邻接和标签之间的相互依赖性进行正则化。

结论和研究方向

本综述系统地回顾了深度神经网络(DNNs)模型反演的最新进展。我们首先全面描述了现有针对视觉任务的MI方法,并从不同角度进行了详细比较。我们还调查了离散图和文本数据上的MI研究,并提供了系统的分类。为了进一步推动这一领域的发展,我们最终展示了几个未解决的挑战,并提出了有前景的未来方向。

针对MI攻击的更强生成性先验

在视觉任务中,先前的方法利用了各种生成对抗网络(GANs)作为图像先验来指导重建。[Liu, 2023]的重要贡献是将强大的扩散模型引入MI攻击。他们训练了一个条件扩散模型[Ho和Salimans, 2022],从目标分布生成64×64分辨率的图像。为了解决更高分辨率图像恢复的问题,未来的研究可以探索利用具有丰富图像先验的预训练扩散模型或替代技术来增强生成模型的利用。这种范式扩展也适用于其他模态。

针对MI攻击的认证鲁棒性

尽管对MI鲁棒性进行了密集的研究,但当前的防御方法缺乏认证的鲁棒性保证。针对对抗性攻击[Cohen et al., 2019]和后门攻击[Wang et al., 2020],已经开发了DNNs的可认证鲁棒方法。因此,提供一个在MI攻击背景下提供认证保证的坚实理论框架是不可或缺的。此外,探索将用户反馈和偏好整合到认证流程中的方法可以增强确保对话AI模型(如ChatGPT)认证鲁棒性的实用性。

多模态MI攻击和防御

最近,先进的多模态模型在处理复杂和多样化数据方面表现出了复杂的能力。虽然当前的MI方法在单模态模型上取得了巨大进展,但对多模态基础模型的研究还不足,例如CLIP[Radford et al., 2021]和SAM[Kirillov et al., 2023]。探索跨模态推理过程中的潜在漏洞可能是模型反演攻击和防御的一个有前景且必要的方向

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值