首先要明白什么是隐私?若单个用户的某个属性可以是隐私,而一群用户的某个属性就可以不看做隐私了。例如,张三喜欢抽烟,所以得了肺癌。这个“张三得了肺癌”这条信息就是隐私。而医院里,抽烟的人容易得肺癌,这就不属于隐私。
因此,差分隐私是来保护隐私的密码学技术,通过对查询的结果加入噪声,而使得攻击者无法判断某个样本是否在数据集中。
差分隐私(Differential Privacy),简称DP,旨在传输的梯度信息中加入随机噪声,并将其查询操作的实际结果隐藏起来或者模糊化,直至无法区分,从而实现对私密数据的保护。
DP是Dwork在2006年提出的一种严格可证明的隐私保护技术。其核心思想是对于差别只有一条记录的两个数据集 D D D和 D ‘ D‘ D‘,查询它们获得相同值的概率非常接近。这两个数据集称为邻居(相邻)数据集。
定义:令
M
M
M为随机算法,
D
D
D和
D
′
D'
D′为相邻数据集,若
M
M
M在
D
D
D和
D
′
D'
D′上任意输出的结果
S
S
S都满足如下式子,则称
M
M
M实现了
(
ϵ
,
δ
)
(\epsilon, \delta)
(ϵ,δ)差分隐私。
P
r
(
M
(
D
)
∈
S
)
=
e
ϵ
×
P
r
(
M
(
D
′
)
∈
S
)
+
δ
Pr(M(D)\in S) = e^{\epsilon}\times Pr(M(D')\in S) + \delta
Pr(M(D)∈S)=eϵ×Pr(M(D′)∈S)+δ
其中参数
ϵ
\epsilon
ϵ称为隐私预算,代表了差分隐私技术所实现的隐私保护程度,
ϵ
\epsilon
ϵ值越小表示隐私保护程度越高。
P
r
(
M
(
D
)
∈
S
)
Pr(M(D)\in S)
Pr(M(D)∈S)表示随机算法
M
M
M的输出属于集合
S
S
S的概率。
ϵ
\epsilon
ϵ表示违背严格差分隐私的概率,若
δ
=
0
\delta = 0
δ=0,则随机算法
M
M
M表示严格的
ϵ
−
\epsilon-
ϵ−差分隐私,否则为松弛差分隐私。
常用的实现隐私保护的机制有拉普拉斯噪声机制[1]和指数噪声机制[2],这里我并没有继续深入阅读,后续可能会继续展开。
[1] Dwork C, Roth A. The algorithmic foundations of differential privacy[J]. Foundations and Trends in Theoretical Computer Science, 2014, 9(3-4): 211-407.
[2] McSherry F, Talwar K. Mechanism design via differential privacy[C]. 48th Annual IEEE Symposium on Foundations of Computer Science, 2007.