论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples

背景

文章: Membership Inference Attacks Against Machine Learning Models. IEEE Symposium on Security and Privacy 2017: 3-18
这篇文章关注机器学习模型的隐私泄露问题,提出了一种 成员推理攻击 :给出一条样本,可以推断该样本是否在模型的训练数据集中 —— 即便对模型的参数、结构知之甚少,该攻击仍然有效。
出发点: 机器学习模型在其训练数据和初次遇见的数据上的 表现往往不同 ,可据此 推断某条数据是否在其训练数据集中

成员推理攻击—攻击方式

基本思想: 若已知目标模型的训练集,那么对于样本 (x,y) ,设目标模型的输出为预测向量y ̂ , 根据其是否在目标模型的训练集中,可以 构建 ( y, y ̂ ,in ) ( y, y ̂ ,out ) , y ̂ 作为 feature in out 作为 label ,可以训练二分类模型。即 攻击模型是一个二分类模型 ,其以目标模型的输出y ̂ 作为输入,判断样本是否在目标模型的训练集中。
关键技术: shadow model
作用:构造与目标模型相似的训练集

                                        

                                                                    黑盒设置中的成员推理攻击

防御目标

目标一:攻击者的攻击分类器对目标分类器训练数据集成员/非成员的推断不准确,即保护训练数据集的隐私。

目标二:置信评分向量的utility-loss有界

本文贡献

提出了 MemGuard ,这是在黑盒设置下,第一个使用正式的 utility-loss 抵御成员推理攻击。
提出了一种新的算法来寻找满足唯一 utility-loss 约束的噪声向量。
推导出了把噪声向量加到置信评分向量的概率的解析解。
在三个真实的数据集上评估了 MemGuard 。结果表明, MemGuard 是有效的,并优于现有的防御。

MemGuard

情景 1 g(s)=0.5
机制显然为 以概率 1 添加噪声向量 0 的最优随机噪声添加机制
情景 2 g(s)≠0.5
将噪声空间分为两组,添加第一组后通过 g 预测是成员的概率为 0.5 ,添加第二组后通过 g 预测是成员的概率不是 0.5 。即
g( s+n )=0.5 是一组; g( s+n ) 0.5 是另一组
分为两个阶段求解
第一:求解代表性的变形尽可能小的噪声向量
第二:求解随机噪声添加机制的概率

第一阶段

第二阶段

One-time randomness

攻击者:重复查询同一样本 n 次,得到 m 𝑠 1s_1 n-m 𝑠 2s_2
利用        计算出p, s_1 s_2 的频率分别为m/n (n-m)/n ,频率接近于 1-p s_i 就是真正的置信评分向量

one-time randomness

概述:对于同一样本返回同一噪声置信评分向量,即选择同一噪声向量
步骤:
计算查询样本的 hash ,将 hash 作为 seed 利用伪随机数生成器生成 𝑝 [0,1]
𝑝 < 𝑝 ,添加 r ,否则不添加
证明:假设攻击者知道防御手段,能得到 𝑝 p^′ ,但他不知道 𝑝p ,也就无法判断

    返回的置信评分向量是否为真的

总结:

论文提出了一个很有意思的攻击解决方法,通过对目标模型得到的置信评分向量以一定的概率添加噪声得到一个随机噪声添加机制,并且让防御者模拟攻击者的攻击分类器形成防御分类器,进而提出优化问题并且求解。

评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值