论文解析：Machine Learning with Membership Privacy using Adversarial Regularization

最新推荐文章于 2024-08-21 09:57:35 发布

卑微的程序猿

最新推荐文章于 2024-08-21 09:57:35 发布

阅读量1.1k

点赞数

分类专栏：论文解析文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/ZXISABOY/article/details/109336906

版权

论文解析专栏收录该内容

2 篇文章

订阅专栏

这里写目录标题

摘要
论文思路总结
问题的提出
机器学习
成员推理攻击
MIN-MAX MEMBERSHIP PRIVACY GAME（最小最大化成员隐私游戏）
理论推导
实验设置
实验结果
个人总结

摘要

在这篇论文中，我们专注于针对黑盒模型的tracing（menbership inference)track,即成员推理攻击。
我们引入了一种隐私机制（可以预见成员推理攻击）来训练机器学习模型，该模型可以实现成员隐私：模型对其训练数据的预测与对同一分布中其他数据点的预测是不可区分的。

模型的目标是在最小的预测错误（效用性）的前提下，拥有对抗成员推理攻击的最强的鲁棒性（高隐私性）。

我们使用不同的数据集在深度神经网络中评估我们的数据集，评估指标是成员推理攻击的损失以及分类（原本模型效用性）的损失。

论文思路总结

通过对抗训练的方法，对于普通的分类任务模型中加入attacker（成员推理攻击）模型，在最大化分类任务准确度的同时，最大化attacker的infer准确度，两个模型进行对抗训练，直到达到平衡，可以理解为一个min-max game（类似于GAN)，也可以将attacker模型视为原模型的一个正则项（公式和实验流程见下面总结），在attacker的infer准确度达到50%附近时（相当于瞎猜），模型的隐私性达到最高。

模型的主要组成部分有两个：
1.原本的分类模型
2.判断数据是否在目标模型的训练集中出现过的attacker模型

最终模型的目标是在最小的预测错误（效用性）的前提下，拥有对抗成员推理攻击的最强的鲁棒性（高隐私性）。

问题的提出

竞争者在未知模型结构和参数的情况下，可以进行成员推理攻击（判断目标数据记录是否在训练集中），并且被证明在大量的机器学习模型和服务有效。

在这篇论文中，我们主要专注于，保护机器学习模型来对抗黑盒成员推理攻击。

目前主要有两类防御机制：
1.第一类包括简单的缓解技术，例如将模型的预测限制为top-k类，从而降低预测精度，或者使模型正则化。
2.第二类采用不同的隐私机制（不同的隐私模型，会产生的问题就是影响原有模型的效用性，在本论文中为分类精度）。

机器学习

在这里插入图片描述
在机器学习（本论文指分类任务），目标模型的最终目标是预测的分类和

成员推理攻击

成员推理攻击的目的是判断目标记录是否出现在目标模型的训练集中。
**推理依据：**如果目标更接近发布的统计信息，那么它很有可能是数据集的成员。
可将成员推理攻击模型视为一个分类模型，输出结果为
1.在目标模型训练集中
2.不在目标模型训练集中
在这里插入图片描述
成员推理攻击模型的优化问题可以通过给定的分类模型f来优化，也可容易通过影子模型进行优化，关于影子模型的概念和作用，可以参考我的另一篇论文笔记论文解析：Membership Inference Attacks Against Machine Learning Models

MIN-MAX MEMBERSHIP PRIVACY GAME（最小最大化成员隐私游戏）

在我们的特定环境下，当attacker试图获得最大的推理增益时，defender需要找到一个既能使其损失最小化，又能使对手最大收益最小化的分类模型。这是一个最小-最大的游戏。

黑盒分类模型f和推理模型h的不同元素之间的关系如下图：
在这里插入图片描述
在我们的对抗训练中，训练数据集D和参考数据集D′上的分类损失和推理增益。分类损失是在D上计算的，但是推理增益是在两个集合上计算的。为了简化说明，将mini batch size设置为1。

训练算法如下：

理论推导

简洁版优化公式：在这里插入图片描述
内部函数最大化，是为了获得最强的attacker模型，外部函数最小化，是指在最坏的情况下（最强的attacker模型），分类模型损失最小化。

具体的理论推理可以看原文，原文的理论推理很完善

实验设置

数据集

CIFAR100： CIFAR-100是用于评估图像识别算法的基准数据集。CIFAR-100有100个类别，每类600张图，32*32像素，本文实验中，记录被分为100类。

Purchases： Kaggle提供的数千人的shopping历史数据，每一个用户的记录包括其一年内的交易记录，包括产品名、店铺、数量和日期。本文采用了简化版本：197324条数据，每一条由600个二进制位构成，每一位表示是否购买了某一产品。本文实验中类别总数设置为100。

Texas100：该数据集包括医院出院数据。数据集中的记录包含由德克萨斯州卫生服务部发布的多个医疗机构的住院患者信息。数据记录具有关于伤害的外部原因（如自杀、药物滥用）、诊断（如精神分裂症、非法堕胎）、患者所经历的程序（如手术）以及一般信息，如性别、年龄、种族、医院ID和住院时间。在作者[45]的帮助下，我们获得了处理后的数据集，其中包含67330条记录和6170个二进制特征，它们代表了100个最常见的医疗程序。这些记录被分为100个类别，每个类别代表不同类型的病人

分类模型

对于CIFAR100数据集，我们使用了两种不同的神经网络结构。
（1）Alexnet 结构，使用Adam优化器，学习率为0.0001，训练次数为100
（2）DenseNet结构，训练次数为300，使用随机梯度下降（SGD）优化，0-100轮次，学习率为0.001，100-200轮次，学习率为0.0001，200-300轮次，学习率为0.00001.
两种结构都使用了正则化，Alexnet使用Drop（0.2），Densenet使用L2正则项。

对于Purchase100数据集，我们使用了一个4层全连接神经网络，层大小为[1024，512，256，100]，激活函数为Tanh。我们用平均值为0，标准偏差为0.01的随机正态分布初始化所有参数，训练次数为50。

对于Texas数据集，我们使用了一个5层全连接神经网络，层大小为[2048，1024，512，256，100]，激活函数为Tanh。我们用平均值为0，标准偏差为0.01的随机正态分布初始化所有参数，训练次数为50。