Machine Learning with Membership Privacy using Adversarial Regularization阅读笔记
文献背景及解决问题
机器学习模型通过其预测泄漏了大量有关其训练集的信息。对于机器学习即服务用户而言,这是一个严重的隐私问题。为了解决这个问题,在本文中,我们着重于减轻针对机器学习模型的黑匣子推理攻击的风险。
本文作者引入了一种机制来训练具有成员资格私有性的模型,从而确保模型在其训练数据与其他数据点的预测之间没有可区分性(来自相同的分布)。这需要最大程度地减少针对模型的最佳黑盒成员推理攻击的准确性。我们将此形式化为amin-max游戏,并设计一个对抗训练算法,该算法可将模型的预测损失以及推理攻击的最大收益降至最低。这种可以确保成员隐私(作为预测不可区分性)的策略还可以充当强大的正则化函数,并有助于推广模型。
基础知识
分类模型:设X为一个维空间中所有可能的数据点的集合,其中每个维代表一个数据点的一个属性(将用作分类模型的输入特征)。假设在X中有一组预定义的k类用于数据点。目的是找到每个数据点与类之间的关系作为分类函数f:X-→Y。输出反映了如何将每个输入分类为不同的类。输出y的每个元素表示输入属于其对应类的概率。机器学习的目标是找到使预期损失最小化的函数。陈述学习分类模型的优化问题,如下所示:
成员推理攻击(也称为散布攻击)的目的是确定对手是否可以通过D观察计算(例如汇总统计信息,机器学习模型)时确定目标数据记录是否在数据集D中。
攻击者将数据集中的已发布统计信