浅谈模型逆向攻击(Model Inversion Attack, MIA)

这是我个人对该领域的理解并从意义、本质和原理、问题与发展三个方面浅谈一下,如果有任何观感较差的地方欢迎评论区指正。

一、模型逆向攻击(Model Inversion Attack, MIA)的意义

人工智能模型(如神经网络)在训练过程中会“记忆”训练数据、数据特征、数据属性等。为了揭示人工智能模型的该安全和隐私问题,相关学者提出模型逆向攻击,旨在通过访问目标模型并逆向推导训练集敏感属性 [1] [2]、生成训练集代表类数据 [3],或重构目标模型输入数据 [4]。例如一个攻击者可以通过向人脸识别模型输入噪声,然后根据模型的预测结果来恢复出训练数据中每个类别的原型或代表性的人脸 [1],如下图所示。

模型逆向攻击可以用来检测和识别模型是否对于包含敏感或隐私信息的过度“重视”,以及研究如何保护这些信息不被泄露或滥用。此外,模型逆向攻击还可以用来评估不同防御策略对于模型鲁棒性、泛化能力的影响,研究如何设计一种隐私性与实用性更加权衡的防御策略。
根据输入噪声恢复训练数据特定类别的代表性人脸

二、模型逆向攻击的本质与原理

从算法的角度来说,MIA的本质是一个优化问题,它寻找在目标模型下实现最大似然的数据 [1][5]。首个 MIA在基因组隐私的背景下提出 [1],Fredrikson等人指出,对个性化医疗线性回归模型的对抗性访问可基于最大后验原则(MAP, maximum a posteriori),推断训练数据集中个人的隐私基因组属性。随后的相关工作聚焦于从人类识别模型中恢复人像数据,例如逻辑回归模型、决策树、DAE、MLP等浅层神经网络。

该类工作的原理可以总结为,通过梯度下降(Gradient Descent, GD)的方法最小化生成图预测与目标类的损失来执行 [3]。若目标模型为黑盒,可通过估算梯度的方法进行 [6],或者通过目标模型对于辅助数据的决策,即置信度向量、独热标签或仅标签,训练一个生成模型。该生成模型将从辅助数据中学习目标类的近似特征 [4][7]。

以下通过一个例子解释GD优化过程 [8]。如下图所示,这是一个具有三个类别的 2D数据集,背景颜色表示模型的预测置信度,黄线表示攻击的中间优化步骤。优化从随机位置开始,这里是来自绿色圆圈类的样本,并尝试重建来自橙色五边形类的样本。通过输入数据预测与橙色五边形类样本的交叉熵损失(Cross-Entropy, CE)计算用于优化输入数据的梯度,其梯度方向可通过黄线反映。其中的白色部分可理解为决策边界厚度(Boundary Thickness) [9],可以观察到当样本到达黄色样本区域的高置信度部分即停止迭代,下一章详细解释原因。
简单的简单的MIA Demo:GD优化过程

以下通过一个过程解释生成器如何根据辅助数据学习统一特征 [4]。如下图所示,向目标模型输入辅助数据将得到相应预测置信度向量,通常实际应用中可能会对该向量裁剪或独热化。敌手将设计一个生成模型,利用预测值进行生成,并最终通过GD最小化生成数据与输入数据的均方误差(Mean Square Error, MSE)。如果置信度为完整向量,最终的攻击效果将表现为输入数据的重构;如果为独热向量,生成器将学习统一特征(因为不管同类数据分布如何,最终预测都相同),最终的攻击效果将表现为代表类的数据恢复,如下图所示。
训练一个生成器
不同的输出会有不同的恢复结果

三、模型逆向攻击的问题与发展

由于MIA为模型测试阶段的攻击,所以目标模型的鲁棒性以及泛化能力直接决定了攻击效果 [8] [10]。其次,由于对于神经网络而言,即使是一层隐藏层,相应的GD都是非凸问题,优化结果可能为局部最小。此外,在没有任何约束条件的情况下直接对高维空间进行优化,可能会产生缺乏语义信息的不切实际的特征 [5]。下图为相应问题产生的攻击结果(右一即为目标模型鲁棒性差体现的攻击结果)。
辅助分布的影响、优化陷入局部最小的影响、目标模型鲁棒性差的影响

1、目标模型鲁棒性以及泛化能力的影响

如下图所示,(b)通过标签平滑方法提高了目标模型的泛化能力,攻击效果显著提升;©通过负标签因子使目标模型过度拟合导致攻击效果不理想。通过观察结果得知,模型的泛化能力决定了决策边界的厚度。薄的决策边界会导致过拟合 (例如,通过训练和测试之间的鲁棒泛化差距来衡量)和较低的鲁棒性;粗的边界有助于提高对对抗样本 (例如,提高对抗训练的鲁棒测试精度)以及所谓的分布外 (Out of Distribution, OOD)变换的鲁棒性 [9]。即决策边界越粗,鲁棒性越强,攻击效果会得到提升;而决策边界越薄,鲁棒性越差,攻击效果会下降。更多实验数据参考下表。

MIA为模型测试阶段攻击,不会改变目标模型本身的能力,反而模型的能力会影响攻击的效果。因此,模型逆向攻击还可以用来评估不同防御策略对模型鲁棒性与泛化能力的影响。
通过标签平滑改变目标模型的泛化能力,观察对于MIA 的影响
白盒、黑盒、仅标签对于不同泛化能力目标模型的表现
此外,需要注意的是,如果目标模型对某类过度自信无法通过其他类置信度获取有效信息,也可对置信度向量做幂指数运算,扩大预测差距。这类方法不影响上图的实验案例。

2、局部最小问题以及相关研究进展

Zhang等人 [5] 首个提出生成式模型逆向攻击(Generative Model Inversion Attack, GMI),它可以反转 DNN 并高保真地合成私有训练数据,通过辅助数据作为先验知识进行约束解决原本无约束的逆向问题。Struppek等人 [10] 证明由于梯度消失,交叉熵损失不是最佳的损失函数,并且为了解决局部最小问题提出采用庞加莱距离代替,扩大优化空间增大梯度,避免优化过程陷入僵局,如下图所示。相应的,后续相关学者基本在损失函数上进行修改,已达到扩大优化空间、缩小潜在向量空间 [11]、类别解耦 [12]、标签指导 [12] 等目标。
不同优化空间对攻击结果的影响

3、黑盒攻击相关研究进展与问题

若目标模型为黑盒,敌手只能根据模型的预测来做相关的方法设计,因此根据得到的预测为置信度向量、中间层特征或仅标签可进一步对方法划分为数据重构与代表类恢复。方法可总结为估算真实梯度 [6] 和训练生成器学习目标类统一特征 [4][7][13](方法套路不固定)。

然而黑盒方法本身也具有很多问题,如利用置信度向量进行的数据重构方法在面临处理后的独热向量进行攻击效果较差;目标模型中间层越深,复杂度越高,损失信息越多,攻击效果越差;利用仅标签进行的攻击需要数次访问、大量的计算、生成器效果不佳等问题。相应的,现有的防御策略也是基于以上问题进行设计。

四、总结

以上皆为我个人对该领域的部分理解,如果有相关问题欢迎在评论区讨论,我也会考虑详细地分析每一篇MIA代表作,谢谢。

参考文献

[1] Fredrikson M, Lantz E, Jha S, et al. Privacy in pharmacogenetics: An {End-to-End} case study of personalized warfarin dosing[C]//23rd USENIX security symposium (USENIX Security 14). 2014: 17-32.
[2] Mehnaz S, Dibbo S V, De Viti R, et al. Are your sensitive attributes private? Novel model inversion attribute inference attacks on classification models[C]//31st USENIX Security Symposium (USENIX Security 22). 2022: 4579-4596.
[3] Fredrikson M, Jha S, Ristenpart T. Model inversion attacks that exploit confidence information and basic countermeasures[C]//Proceedings of the 22nd ACM SIGSAC conference on computer and communications security. 2015: 1322-1333.
[4] Yang Z, Zhang J, Chang E C, et al. Neural network inversion in adversarial setting via background knowledge alignment[C]//Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security. 2019: 225-240.
[5] Zhang Y, Jia R, Pei H, et al. The secret revealer: Generative model-inversion attacks against deep neural networks[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 253-261.
[6] Kahla M, Chen S, Just H A, et al. Label-only model inversion attacks via boundary repulsion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 15045-15053.
[7] Han G, Choi J, Lee H, et al. Reinforcement Learning-Based Black-Box Model Inversion Attacks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 20504-20513.
[8] Struppek L, Hintersdorf D, Kersting K. Be Careful What You Smooth For: Label Smoothing Can Be a Privacy Shield but Also a Catalyst for Model Inversion Attacks[J]. arXiv preprint arXiv:2310.06549, 2023.
[9] Yang Y, Khanna R, Yu Y, et al. Boundary thickness and robustness in learning models[J]. Advances in Neural Information Processing Systems, 2020, 33: 6223-6234.
[10] Struppek L, Hintersdorf D, Correia A D A, et al. Plug & play attacks: Towards robust and flexible model inversion attacks[J]. arXiv preprint arXiv:2201.12179, 2022.
[11] Chen S, Kahla M, Jia R, et al. Knowledge-enriched distributional model inversion attacks[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 16178-16187.
[12] Yuan X, Chen K, Zhang J, et al. Pseudo Label-Guided Model Inversion Attack via Conditional Generative Adversarial Network[J]. arXiv preprint arXiv:2302.09814, 2023.
[13] Zhu T, Ye D, Zhou S, et al. Label-only model inversion attacks: Attack with the least information[J]. IEEE Transactions on Information Forensics and Security, 2022, 18: 991-1005.

  • 49
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值