论文解析:Machine Learning with Membership Privacy using Adversarial Regularization

摘要

在这篇论文中,我们专注于针对黑盒模型的tracing(menbership inference)track,即成员推理攻击
我们引入了一种隐私机制(可以预见成员推理攻击)来训练机器学习模型,该模型可以实现成员隐私:模型对其训练数据的预测与对同一分布中其他数据点的预测是不可区分的。

模型的目标是在最小的预测错误(效用性)的前提下,拥有对抗成员推理攻击的最强的鲁棒性(高隐私性)。

我们使用不同的数据集在深度神经网络中评估我们的数据集,评估指标是成员推理攻击的损失以及分类(原本模型效用性)的损失。

论文思路总结

通过对抗训练的方法,对于普通的分类任务模型中加入attacker(成员推理攻击)模型,在最大化分类任务准确度的同时,最大化attacker的infer准确度,两个模型进行对抗训练,直到达到平衡,可以理解为一个min-max game(类似于GAN),也可以将attacker模型视为原模型的一个正则项(公式和实验流程见下面总结),在attacker的infer准确度达到50%附近时(相当于瞎猜),模型的隐私性达到最高。

模型的主要组成部分有两个:
1.原本的分类模型
2.判断数据是否在目标模型的训练集中出现过的attacker模型

最终模型的目标是在最小的预测错误(效用性)的前提下,拥有对抗成员推理攻击的最强的鲁棒性(高隐私性)。

问题的提出

竞争者在未知模型结构和参数的情况下,可以进行成员推理攻击(判断目标数据记录是否在训练集中),并且被证明在大量的机器学习模型和服务有效。

在这篇论文中,我们主要专注于,保护机器学习模型来对抗黑盒成员推理攻击。

目前主要有两类防御机制:
1.第一类包括简单的缓解技术,例如将模型的预测限制为top-k类,从而降低预测精度,或者使模型正则化。
2.第二类采用不同的隐私机制(不同的隐私模型,会产生的问题就是影响原有模型的效用性,在本论文中为分类精度)。

机器学习

在这里插入图片描述
在机器学习(本论文指分类任务),目标模型的最终目标是预测的分类和

成员推理攻击

成员推理攻击的目的是判断目标记录是否出现在目标模型的训练集中。
**推理依据:**如果目标更接近发布的统计信息,那么它很有可能是数据集的成员。
可将成员推理攻击模型视为一个分类模型,输出结果为
1.在目标模型训练集中
2.不在目标模型训练集中
在这里插入图片描述
成员推理攻击模型的优化问题可以通过给定的分类模型f来优化,也可容易通过影子模型进行优化,关于影子模型的概念和作用,可以参考我的另一篇论文笔记论文解析:Membership Inference Attacks Against Machine Learning Models

MIN-MAX MEMBERSHIP PRIVACY GAME(最小最大化成员隐私游戏)

在我们的特定环境下,当attacker试图获得最大的推理增益时,defender需要找到一个既能使其损失最小化,又能使对手最大收益最小化的分类模型。这是一个最小-最大的游戏。

黑盒分类模型f和推理模型h的不同元素之间的关系如下图:
在这里插入图片描述
在我们的对抗训练中,训练数据集D和参考数据集D′上的分类损失和推理增益。分类损失是在D上计算的,但是推理增益是在两个集合上计算的。为了简化说明,将mini batch size设置为1。
在这里插入图片描述
训练算法如下:在这里插入图片描述

理论推导

简洁版优化公式:在这里插入图片描述
内部函数最大化,是为了获得最强的attacker模型,外部函数最小化,是指在最坏的情况下(最强的attacker模型),分类模型损失最小化。

具体的理论推理可以看原文,原文的理论推理很完善

实验设置

数据集

CIFAR100: CIFAR-100是用于评估图像识别算法的基准数据集。CIFAR-100有100个类别,每类600张图,32*32像素,本文实验中,记录被分为100类。

Purchases: Kaggle提供的数千人的shopping历史数据,每一个用户的记录包括其一年内的交易记录,包括产品名、店铺、数量和日期。本文采用了简化版本:197324条数据,每一条由600个二进制位构成,每一位表示是否购买了某一产品。本文实验中类别总数设置为100。

Texas100:该数据集包括医院出院数据。数据集中的记录包含由德克萨斯州卫生服务部发布的多个医疗机构的住院患者信息。数据记录具有关于伤害的外部原因(如自杀、药物滥用)、诊断(如精神分裂症、非法堕胎)、患者所经历的程序(如手术)以及一般信息,如性别、年龄、种族、医院ID和住院时间。在作者[45]的帮助下,我们获得了处理后的数据集,其中包含67330条记录和6170个二进制特征,它们代表了100个最常见的医疗程序。这些记录被分为100个类别,每个类别代表不同类型的病人

分类模型

对于CIFAR100数据集,我们使用了两种不同的神经网络结构。
(1)Alexnet 结构,使用Adam优化器,学习率为0.0001,训练次数为100
(2)DenseNet结构,训练次数为300,使用随机梯度下降(SGD)优化,0-100轮次,学习率为0.001,100-200轮次,学习率为0.0001,200-300轮次,学习率为0.00001.
两种结构都使用了正则化,Alexnet使用Drop(0.2),Densenet使用L2正则项。

对于Purchase100数据集,我们使用了一个4层全连接神经网络,层大小为[1024,512,256,100],激活函数为Tanh。我们用平均值为0,标准偏差为0.01的随机正态分布初始化所有参数,训练次数为50。

对于Texas数据集,我们使用了一个5层全连接神经网络,层大小为[2048,1024,512,256,100],激活函数为Tanh。我们用平均值为0,标准偏差为0.01的随机正态分布初始化所有参数,训练次数为50。

内容推理攻击模型

内容推理模式使用了三个全连接神经网络,具体参数可见原文(太多了,码不动了………………)
激活函数为ReLu,用平均值为0,标准偏差为0.01的随机正态分布初始化权重参数,偏差参数初始化为0,使用Adam进行优化,学习率为0.001。

实验结果

具体实验结果课件原文,原文又充分的实验和结果数据可供参考。

个人总结

个人的理解是在最强的attacker模型也只能获得50%的准确率时,整个模型的隐私是可以得到保证的,本文的模型也能够实现,在获得隐私性的同时,效用性的降低达到最小,最终得到一个既能保证分类准确度,又能够防御成员推理攻击的模型。(通过对抗思想进行训练)

本人小白一枚,水平有限,如有问题,欢迎讨论,感谢理解。

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值