差分隐私定义:
假设一个随机函数 M , 使得 M 在任意两个相邻的数据集 D 和 D’(即||D -D'||_1 <= 1
)上得到任意相同输出集合 S 的概率满足:
Pr[M(D) ∈ S] ⩽ exp(ε) * Pr[M(D′) ∈ S] + δ
则称该随机函数 M 满足(ε,δ)-differential privacy
,简写为(ε,δ)-DP
这种形式的差分隐私是宽松的. 当 δ=0 时,称为 ε-DP
也就是纯差分隐私定义. 其中 ε 称为隐私预算.
部分内容说明
-
隐私损失
差分隐私(DP)的定义实际上是保证去掉/改变一个样本不会对 M 的输出造成显著的影响。换言之,DP保证了M(D)
和M(D')
有着相似的概率分布。
按照DP的定义,如果M(D)
和M(D')
的概率分布相差越大,那么隐私损失就越大;如果M(D)
和M(D')
的概率分布相差越小,那么隐私损失就越小。 -
邻近数据集:只相差一条记录的一对数据集. 即 ||D - D′||_1 <= 1.
-
查询函数: f: X -> R, 主要作用是将数据集 X 映射成为 R
-
全局敏感度 :
GS_f(D) = Δf = max(D,D′) ∥f(D)−f(D′)∥1
.∥f(D)−f(D′)∥1
是 f(D) 与 f(D‘) 之间的曼哈顿距离
全局敏感度反映了一个查询函数在一对相邻数据集上进行查询时变化的最大范围。它与数据集无关, 只由查询函数本身决定 -
局部敏感度 :
LS_f(D) = Δf = max(D′) ∥f(D)−f(D′)∥1
.∥f(D)−f(D′)∥1
是 f(D) 与 f(D‘) 之间的曼哈顿距离
与全局敏感度不同, 局部敏感度是由查询函数和给定的数据集共同决定, 因为局部敏感度只是对于一个数据集做变化。
局部敏感度和全局敏感度的关系可以表示为:S(f) = max(D) {LS_f(D)}
容易看出,局部敏感度会与数据分布有很强的关联,但全局敏感度一般较大. 故在需要使用局部敏感度时,常采用局部敏感度的平滑上界. -
平滑上界
给定一个 β > 0 , 对于一个函数 F:D --> R , 在查询函数 f 上, 如果它满足如下条件
∀D:F(D) >= LS_f(D) , ∀D,D’:F(D) <= exp(β) * LS_f(D’)
则称函数 F 是一个在查询函数 f 上的