Membership Inference Attacks Against Machine Learning Models
1. Abstract:
- 在机器学习过程中存在着隐私泄露的问题,这篇论文着重于成员推理攻击:给定一个记录(record)和一个机器学习模型的黑盒API,成员推理攻击能够区别该记录是否属于模型的训练集;
- 成员推理攻击的主要核心思想是:通过目标模型来训练攻击者自身的攻击模型,该攻击模型(分类器)的作用在于能够识别出目标模型对于给定的数据集(数据集一部分来源于训练集,一部分训练集)的不同的预测值,从而能够区分出该记录是否属于目标模型的训练集,从而造成训练集记录的隐私泄露;
2. Introduction:
- 谷歌和亚马逊等公司现在已经可提供“machine learning as a service”服务(其提供黑盒API供客户使用来构建自己的模型);
- 攻击者通过训练攻击模型来识别目标模型的行为(训练集内和训练集外的数据集,目标模型的行为是不一样的),即将成员推理问题转换成分类问题;
- 首要问题是构建攻击模型—采用shadow learning技术,shadow model是为了模仿目标模型的行为,这样就可以知道目标模型(即shadow model)的真实训练集的身份,然后通过标记过的输入(label标签标注该记录是否属于训练集)和shadow model的输出(预测函数)来构建攻击模型;
- 目标模型虽然只能通过黑盒API来联通,但是通过运用shadow learning技术我们可以构建和目标模型相类似的伪目标模型,这样目标模型的问题就得到了解决;第二步需要解决的问题是—为shadow model构造数据集,因为大型服务器的数据集我们是不可知的,所以攻击者需要自行构造数据集,来训练自己的攻击模型;构建数据集有三种方法:1.通过黑色API来合成生成数据集(不具备目标模型的训练集分布的任何先验知识)2.提取和目标模型的数据集相同分布的数据3.攻击者知道目标模型数据集的潜在噪声版本;(2和3方法仅在成员推理之前访问一次目标模型,即不需要再合成数据集的过程中查询黑盒API);
- 这种简单的成员推理攻击在更为复杂的机器学习模型中效果并不太好,具体的改进在2019年shokri的paper-Comprehensive Privacy Analysis of Deep Learning中,专门对神经网络的成员推理攻击进行了介绍;
- 注意区分成员推理攻击和模型反转之间的区别,成员推理攻击—判断某一记录是否属于目标模型的数据集,模型反转—output推inoput,但是模型反转不能够构造出真实的目标模型的训练集或记录;
3.Statement
-
首先需要明确一个基本的概念就是:对于任何一个输入的记录数据,模型的输出是一个可能性的预测向量(prediction vector of probabilities(可能性也称confidence values,置信值)),预测向量对应的是每一个分类的类,然后模型会选择置信度最高的一个分类该记录的预测标签;
-
攻击模型的攻击准确度的衡量标准是precision精确率和recall召回率;准确率(accuracy):所有预测正确的占比,精确率(precision):正确预测为正的占全部预测为正的比例,召回率(recall):正确预测为正的占全部实际为正的比例;
4.Methods
对于实验进行完整的介绍:
- 该流程是攻击的流程图,已知的一个labeled record有标签的记录(x,y),通过target model可以得到一个预测向量y,然后将(y,y)作为feature以及in或out作为label训练一个二分类模型,该模型就是攻击模型,攻击模型将计算((x,y),y)属于“in”或者“out”分类的概率,也就是x属于目标模型的训练集的概率;
-
该攻击方法最关键的问题在于不知道目标模型的训练集,为了训练出攻击模型我们需要使用shadow model技术,shadow model可以模仿target model的behavior,从而达到训练出attack model的目的;
-
在最后的情况下攻击者如果知道目标模型的训练算法和模型结构,shadow model是很容易训练的;但是机器学习服务器是不会提供任何模型的信息的,这样就需要攻击者通过访问服务器的黑盒API来训练shadow models(shadow models越多,攻击模型的准确度就会越高)
训练attack model和shadow models的关键在于datasets的合成,文章给出了3种方法:
- model-based synthesis:用模型本身来合成数据,其原理是如果对于records模型的预测能够给出很高的置信度,那么该record与真实训练集中的数据应该是十分相似的;
- statistics-based synthesis:知道目标模型的数据的分布信息;
- noisy real data:噪声版本的数据和真实数据可能十分的相似,可以直接使用;
5.Evaluation
CIFAR,Purchases,Locations,Texas hospital stays,mnist,UCI Adult