【论文笔记】Plug & Play Attacks: Towards Robust and Flexible Model Inversion Attacks

最新推荐文章于 2024-10-10 11:04:02 发布

sugar_e

最新推荐文章于 2024-10-10 11:04:02 发布

阅读量450

点赞数

分类专栏：数据集重构（model inversion）文章标签：论文阅读

本文链接：https://blog.csdn.net/Aemilia/article/details/127368203

版权

数据集重构（model inversion）专栏收录该内容

1 篇文章

订阅专栏

【ICML 2022】Plug & Play Attacks: Towards Robust and Flexible Model Inversion Attacks

https://zhuanlan.zhihu.com/p/536091331

摘要

关于Model Inversion Attacks（模型反转攻击），即通过利用模型的learned knowledge，从目标分类器的私有训练数据中创造出反映class特征的合成图像。相当于从模型中提取出每种类别特定的特征。这也是很严重安全隐患，因为可能可以提取出如人脸、指纹、身份信息等敏感隐私信息，那么攻击者可以重构人脸，冒用身份……

以前的研究都是训练GAN（生成对抗网络）来作为image priors（先验）。但是存在耗时、耗力、易受数据集分布变化的影响。本文提出的Plug & Play攻击可以减少对image prior的依赖，只需要一个GAN网络即可对大范围的目标进行攻击。而且即使使用的是预训练好的GAN模型、数据分布发生很大变化也可以达到很好的攻击效果。

1 Introduction

为了解决训练过程中会出现的梯度消失的问题，使用Poincare损失函数，而不是交叉熵损失函数。加入随机转化避免过拟合。首次提出了要从攻击结果中找出有意义的样本的重要性。

2 Model Inversion in Deep Learning

介绍了以前一些攻击方法，及其缺陷。

目前有三种攻击方式：optimization-based, training-based, or architecture-based

optimization-based：通过产生合成的模型输入来找类型特征，也基于梯度下降的方法

training-based：训练GAN模型，将目标模型视作一个加密器，要找解密器

这些都不是为了获取隐私信息，只是探寻目标模型各个类别的特征

可能存在fooling image（无意义的噪点图像），out-of-distribution data（如猫狗分类中出现了一个熊猫图像）

影响因素：distributional shifts, vanishing gradients, and non-robust target models

3 Generative Model Inversion Attacks

定义了理想的MIA攻击，以及会影响MIA攻击效果的因素

假设：目标分类模型为在这里插入图片描述
，且

为对x是否为类c∈C的预测分数，敌手可以访问目标模型（作为white box），且无限次地问询，但并不知道C的任何信息。

敌手要构造一个合成图像x^，满足时目标类别c的特征，泄露了隐私信息。这在较浅的神经网络中可行，但是在现在流行的深层神经网络就不行了。
在这里插入图片描述

之后产生了使用GAN网络来生成样本（将特征向量z映射到图像空间），并训练鉴别器D来鉴别是否是真实样本x还是由G生成的G(z)，得到等式
在这里插入图片描述

这样或许可以得到评分（y_c=M_target(x* )_c）最高的 x* = G(z*)。但是这个构造得到的x*不一定具有意义。
在这里插入图片描述

G可以拟合P(X)，进而近似F(X)，然后合成符合这个分布的样本x。

在这里插入图片描述

4 Towards Robust and Flexible MIAs

介绍本文提出的Plug & Play攻击方式。这种方式鲁棒性更好，也更适用于distributional shift setting分布转换设置

在这里插入图片描述

首先，latent vectors潜伏向量被采样并映射到它们的中间表征w（用预训练的StyleGAN2模型）
然后根据w生成图像，进行转换（Transformations），并输入目标模型。
最后，在目标模型的输出和目标类别c上计算Poincare损失，并通过反向传播损失和执行梯度下降步骤更新w。优化完成后，根据其对随机变换的鲁棒性，选择一个结果子集。