摘要
用生成模型逆向攻击(generative model-inversion attack)来逆向攻击深度神经网络。通过GANs学习distributional prior,使用它来指导逆向过程。
从理论上证明了模型的预测能力和它对逆向攻击的脆弱性是正相关的。
Generative MI Attack
重建过程包括两个阶段:
-
利用公共知识提取生成器。
-
利用从第一阶段获得的生成器,解决优化问题,以恢复图像中缺失的敏感区域。
高度预测的模型能够在特征和标签之间建立很强的相关性,攻击者同样利用这个发动MI攻击完,因此,预测能力越强的模型越容易被攻击。
因为要修正训练性能,过度拟合意味着模型具有较弱的预测能力,更不易受到攻击(假设没有先验知识)。
评估指标
评估恢复的图像是否暴露了有关目标标签的私有信息。
-
Peak Signal-to-Noise Ratio (PSNR).PSNR是图像的最大平方像素波动与目标图像与重建图像之间的均方误差之比。PSNR越高,重建图像的质量越好。
-
Attack Accuracy (Attack Acc).攻击精度。建立评估分类器,基于输入重建图像预测身份。
-
Feature Distance (Feat Dist).特征距离,测量重建图像与目标类质心之间的L2特征距离。
-
K-Nearest Neighbor Distance (KNN Dist).最邻近距离,从重建图像到目标类的最短距离。
公共数据集对攻击性能的影响
当将公共数据大小缩小10倍时,攻击性能变化减小7%。
名词解析
-
distributional prior:分布式先验。
-
black-box attack:不了解模型的参数和结构信息,仅通过模型的输入和输出,生成对抗样本,再对网络进行攻击。
-
white-box attack:攻击者已知模型内部的所有信息和参数,基于给定模型的梯度生成对抗样本,对网络进行攻击。
结论
提出了一种生成方法的MI攻击,对于攻击DNN和高维输入数据可以达到目前最好的成功率。 我们的方法的思想是通过GAN从公共数据集中提取通用知识,并使用它对逆向问题进行正则化。 我们的实验结果表明,即使公共数据集(1)不包括想要重建的标签,(2)是未标记的,(3)规模较小,(4)来自与私有数据不同的分布,我们提出的攻击也是非常有效的。 我们还提供了理论分析,显示了模型的预测能力与其对逆向攻击的鲁棒性之间的基本联系。