MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

MemGuard是一种新的防御方法,针对黑盒设置下的成员推理攻击提供正式的效用损失保证。它通过向目标分类器的预测置信度分数向量添加噪声来防止攻击者准确推断数据样本的成员身份,同时限制效用损失。MemGuard分为两阶段,首先找到能将置信度向量转换为对抗性样本的噪声,然后以概率添加这些噪声,以保持预测标签不变并限制效用损失。实验表明,MemGuard在保护隐私和维持预测准确性方面优于现有防御策略。
摘要由CSDN通过智能技术生成

MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

(通过对抗样本来防御黑盒的成员推理攻击)CCS 2019

1. Abstract

本成果主要是一个对于查询样本的预测向量的优化问题,通过噪声可以达到不改变查询样本的预测标签且对预测向量的改变有限的目的,通过一定的框架来达到优化的目的。

​ 成员身份推理攻击的定义:攻击者的目的是推断一个数据样本是否在目标分类器的训练数据集中。具体地说,给定对目标分类器的黑盒访问(Black-Box),攻击者训练二进制分器,该分类器(攻击模型)以目标分类器预测的数据样本的置信分数矢量作为输入,并预测数据样本是目标分类器训练数据集的成员或非成员。成员推理攻击的原理是目标分类器的过度拟合,因为过拟合所以成员和非成员的预测向量是有很明显的决策边界的。成员身份推理攻击对训练数据集构成了严重的隐私和安全威胁。在训练目标分类器或规范目标分类器的训练过程时,大多数现有的防御都利用差分隐私。这些防御有两个关键的限制:1.它们没有对置信分数向量的正式效用损失保证,以及2.它们实现了次优的隐私效用权衡。

效用损失:模型的预测的效果的准确度的损失(普遍的防御机制因为改变目标模型的训练过程,虽然可以使非成员和成员的置信度向量差异缩小,但是也可能会导致预测结果出现效用损失,这是得不到正式的效用损失保证的)

​ 在这种背景下,作者提出MemGuard防御方法,这是第一个具有正式效用损失保证的防御,以防止黑盒成员推断攻击。 而不是篡改目标分类器的训练过程(以往的防御方式),MemGard将噪声添加到目标分类器预测的每个置信度分数向量中。关键原则是,攻击者使用分类器(威胁模型)来预测成员或非成员,分类器(威胁模型)容易受到对抗性样本的影响。作者建议在置信度分数向量中添加一个精心制作的噪声向量,将其转化为误导攻击者分类器的对抗性样本。 具体来说,MemGuard分为两个阶段。 在第一阶段,MemGuard发现了一个精心制作的噪声向量,它可以将置信度分数向量转换为对抗性样本,这可能会误导攻击者的(攻击模型分类器)对成员或非成员进行随机猜测。 我们通过一种新的方法找到了这样精心制作的噪声向量,以将噪声向量上独特的效用损失约束结合起来。 在第二阶段MemGuard会以一定的概率将噪声矢量添加到置信分数矢量中,该噪声向量被选择以满足置信度向量上给定的效用损失预算。通过在三个数据集上进行的实验表明,与现有的防御系统相比,MemGuardf可以有效地防御成员身份推理攻击,并实现更好的隐私效用权衡。我们的工作是首次证明对抗性样本可以作为防御机制来防御成员推理攻击。特别是,在训练数据集敏感的应用场景(例如,生物医学记录和位置跟踪)中,成功的成员推断会导致严重的隐私侵犯,成员推断还损害了模型提供者对培训数据集的知识产权

​ 对于成员推理攻击,目前最先进的防御机制是规范目标模型分类器的训练过程,以减少训练集成员和非成员之间的过拟合和置信度差异

2. 相关工作

​ MemGuard是第一个能够在黑盒设定下对成员推理攻击进行防御的具有效用损失保证的防御方法,MemGuard不需要像大部分的成员推理攻击的防御机制一样对目标模型进行重新训练,它仅仅是添加噪音向量到目标模型的预测向量中MemGuard可以应用于现有的目标分类器,而无需再训练它。对于查询数据样本的置信度向量,MemGuard旨在实现两个目标:***1.攻击者的分类器在向置信度向量添加噪声后推断查询数据样本的成员或非成员时不准确;2.置信度向量的效用损失有界。***(具体地说,噪声不应该改变查询数据样本的预测标签,因为在金融和医疗保健等一些关键应用中,即使是1%的标签精度损失也可能是无法容忍的。)

第一阶段:由于防御者不知道攻击者的分类器,所以防御者自己训练一个攻击模型来进行成员推理,并基于自己的分类器来生成攻击模型分类器。(因为对抗性样本的可转移性,所以对防御者的攻击模型有效的噪声同时对攻击者的攻击模型也是有效的),虽然对抗性样本社区已经产生了许多对抗性样本噪声,但是这些生成对抗性样本的算法仍然不能够满足正式损失约束的要求,工作设计了一种新的算法来寻找能够满效用损失的小噪声。**第二阶段:**MemGuard将第一阶段发现噪声以一定的概率加到置信度向量,这个概率能够保证效用损失的期望限制,然后将概率选择作为优化问题求解。

​ 我们评估了MemGuard,并将其与三个真实数据集上最先进的防御进行了比较。我们的实证结果表明,MemGuard可以有效地防御最先进的黑箱成员推理攻击。特别是,由于MemGuard被允许添加更大的噪声(我们使用它的L1范数测量噪声的大小),所有评估的成员推理攻击的推理精度变得更小。此外,MemGuard实现了比最先进的防御更好的隐私效用权衡。具体来说,鉴于相同的平均置信度分数失真,MemGuard最能降低攻击者推断成员/非成员的推理精度。

3.一些防御方法

  1. l1正则化:成员推理的依据是目标模型的过拟合,通过正则化的方法减轻目标模型的过拟合程度从而可以降低成员成员推理的精度。
  2. 最大最小化: 一种最小最大博弈论方法来训练目标分类器。 具体来说,该方法提出了一个最小最大优化问题,其目的是最小化目标分类器的预测损失,同时最大化成员隐私。 这个公式相当于在目标分类器的损失函数中添加一个新的正则化项,称为对抗性正则化.
  3. DROPOUT
  4. MODEL STEACKING
  5. 差分隐私
  6. 限制:现有的防御存在两个关键限制:1.它们没有置信度分数向量的正式效用损失保证;2.它们实现了次优的隐私效用权衡。我们解决了这两个限制性。例如,正如我们在实验中展示的,在置信分数向量相同的效用损失(例如置信分数向量的相同L1范数失真)下,我们的防御比现有的防御降低了攻击分类器在推断成员/非成员防御方面的准确性。

​ 由于我们的防御利用对抗性示例来误导攻击者的攻击分类器,因此自适应攻击者可以利用对对抗性示例更健壮的分类器作为攻击分类器。 虽然已经探索了不同的方法(例如对抗性训练、防御性蒸馏、基于区域的分类、MagNet和特征压缩),以使分类器对对抗性示例具有鲁棒性,但设计这样的鲁棒分类器仍然是一个开放的挑战。 然而,在我们的实验中,我们将考虑攻击者使用对抗性训练来训练其攻击分类器,因为对抗性训练被认为是迄今为止针对对抗性例子的最具经验鲁棒性的方法。

4. 设定

1.Model Provider

AI服务器提供商,本实验的目标模型是神经网络结构

2.Attacker

攻击者对目标模型有黑盒访问并获得目标模型分类器的置信度分数向量,假设对方是强攻击即攻击者知道目标模型防御者的防御策略,而防御者不知道攻击者的攻击方法,因为攻击的方法很多。

3.Defender(关键)

公式:

​ s代表真实的目标分类器提供给查询样本的置信度分数向量,n代表防御者添加的噪声向量,s’代表噪声置信度向量,所以攻击者以及所有的用户通过黑盒访问得到的都是s’。

​ 防御者将噪声添加到置信度向量中的两个目的:1.攻击者分类器对于成员非成员的预测是不准确的;2.置信度向量的效能损失是有界的。

然而实现着两个目标是有挑战的:

1.目标一**:防御者不知道攻击者攻击方式,因此防御者自己需要构建一个攻击二分类器,这里称之为防御分类器,目标分类器的决策函数(神经网络的输出层)为g,g(s)代表目标模型的预测为s的概率,s代表该样本为成员样本。我们考虑防御者训练一个神经网络分类器,其输出层激活函数为sigmoid函数,输出g(s)范围为0-1,大于0代表该查询样本为成员样本.

为了使得防御分类器的攻击不准确,有两种防御的策略:1.如果防御分类器预测真实置信分数向量的成员(或非成员),则防御器添加噪声向量,使防御分类器预测噪声置信分数向量的非成员(或成员),然而,当攻击者知道防御机制时,攻击者可以很容易地调整其攻击,以实现高精度2.攻击分类器总是预测为成员样本或者非成员样本,这种方法是不行的,因为会影响到置信度分数向量的效用损失。

​ **随机的噪声添加机制(M):**M(n|s)代表防御者 以概率M选择噪声,防御者的目的是为了是激活函数sigmoid的输出层g尽可能的接近0.5。这样防御分类器只能够随机的平均猜测查询样本是成员非成员。

所以,防御者的目的就是找到一个M使得g-0.5的绝对值最小化,无限接近于0

2.目标二:量化效用损失的关键在于工作者引入了两个重要的效用损失指标

**Label loss:**注重标签,使得添加噪声后的预测标签和未添加噪声的预测标签是一样的;

Confidence score distortion:防止出现置信度向量失真

5.MemGuard

概述:

情景一:g(s)=0.5,将噪声0以概率1添加;简单

情景二:g(s)不等于0.5,我们需要通过一定概率的添加噪声向量来加到真是预测向量中达到等式1的效果,我们在训练一个二分类器,在噪声空间中将噪声分为两类,一类是满足条件(上述几个等式),一类是不满足条件的噪声。

两个阶段框架

第一阶段:1.我们选择具有最小置信度分数向量失真的噪声组作为一组代表性噪声组,2.如果g(s)不等于0.5,我们再选择一组代表性的噪声组r作为第一组噪声组

第二阶段:我们假设随机的概率机制是两个代表性的噪声向量而不是整个噪声向量空间的概率分布,防御者将具有代表性的噪声向量r添加到真实的置信度向量中。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值