论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples
背景
•
文章:
Membership Inference Attacks Against Machine Learning Models. IEEE Symposium on Security and Privacy 2017: 3-18
•
这篇文章关注机器学习模型的隐私泄露问题,提出了一种
成员推理攻击
:给出一条样本,可以推断该样本是否在模型的训练数据集中
——
即便对模型的参数、结构知之甚少,该攻击仍然有效。
•
出发点: 机器学习模型在其训练数据和初次遇见的数据上的
表现往往不同
,可据此
推断某条数据是否在其训练数据集中
。
成员推理攻击—攻击方式
•
基本思想: 若已知目标模型的训练集,那么对于样本
(x,y)
,设目标模型的输出为预测向量y ̂
,
根据其是否在目标模型的训练集中,可以
构建
(
y,
y ̂
,in
)
或
(
y,
y ̂
,out
)
,
将y ̂
作为
feature
,in
和out
作为
label
,可以训练二分类模型。即
攻击模型是一个二分类模型
,其以目标模型的输出y ̂
作为输入,判断样本是否在目标模型的训练集中。
•
关键技术:
shadow model
•
作用:构造与目标模型相似的训练集
黑盒设置中的成员推理攻击
防御目标
目标一:攻击者的攻击分类器对目标分类器训练数据集成员/非成员的推断不准确,即保护训练数据集的隐私。
目标二:置信评分向量的utility-loss是有界的
本文贡献
•
提出了
MemGuard
,这是在黑盒设置下,第一个使用正式的
utility-loss
抵御成员推理攻击。
•
提出了一种新的算法来寻找满足唯一
utility-loss
约束的噪声向量。
•
推导出了把噪声向量加到置信评分向量的概率的解析解。
•
在三个真实的数据集上评估了
MemGuard
。结果表明,
MemGuard
是有效的,并优于现有的防御。
MemGuard
•
情景
1
:g(s)=0.5
•
机制显然为
以概率
1
添加噪声向量
0
的最优随机噪声添加机制
•
情景
2
:g(s)≠0.5
•
将噪声空间分为两组,添加第一组后通过
g
预测是成员的概率为
0.5
,添加第二组后通过
g
预测是成员的概率不是
0.5
。即
•
g(
s+n
)=0.5
是一组;
g(
s+n
)
≠
0.5
是另一组
•
分为两个阶段求解
•
第一:求解代表性的变形尽可能小的噪声向量
•
第二:求解随机噪声添加机制的概率
第一阶段
第二阶段
One-time randomness
•
攻击者:重复查询同一样本
n
次,得到
m
次
𝑠
1s_1
和
n-m
次
𝑠
2s_2
•
利用
计算出p, s_1
和s_2
的频率分别为m/n
和(n-m)/n
,频率接近于
1-p
的s_i
就是真正的置信评分向量
one-time randomness
•
概述:对于同一样本返回同一噪声置信评分向量,即选择同一噪声向量
•
步骤:
•
计算查询样本的
hash
,将
hash
作为
seed
利用伪随机数生成器生成
𝑝
′
∈
[0,1]
•
当
𝑝
′
<
𝑝
,添加
r
,否则不添加
•
证明:假设攻击者知道防御手段,能得到
𝑝
′p^′
,但他不知道
𝑝p
,也就无法判断
返回的置信评分向量是否为真的
总结:
论文提出了一个很有意思的攻击解决方法,通过对目标模型得到的置信评分向量以一定的概率添加噪声得到一个随机噪声添加机制,并且让防御者模拟攻击者的攻击分类器形成防御分类器,进而提出优化问题并且求解。