文章目录
Laplace噪声的概率累积函数
Laplace噪声概率函数
f ( x ∣ μ , b ) = 1 2 b e − ∣ x − μ ∣ b f(x|\mu,b)=\frac{1}{2b}e^\frac{-|x-\mu|}{b} f(x∣μ,b)=2b1eb−∣x−μ∣
Laplace噪声的概率累积函数
F ( x ∣ μ , b ) = { 1 2 e − μ − x b , x < μ 1 − 1 2 e − x − μ b , x ⩾ μ F(x|\mu,b)=\begin{cases} \frac{1}{2}e^{-\frac{\mu-x}{b}},x<\mu \\1-\frac{1}{2}e^{-\frac{x-\mu}{b}},x\geqslant \mu\end{cases} F(x∣μ,b)={21e−bμ−x,x<μ1−21e−bx−μ,x⩾μ
做出其图像为:
这个函数莫名像sigmod函数,有木有!
由于概率累计分布的值域区间为 [ 0 , 1 ] [0,1] [0,1],因此在生成Laplace噪声之前应该先生成区间在 [ 0 , 1 ] [0,1] [0,1]之间的满足均匀分布的随机值。
通过求解概率累积函数的反函数即可求得累积函数的反函数即可求得满足Laplace分布的噪声。
计算的方法见MathThinker,这里的计算还是很简单的,自己可以搞定。
他的求解方法,看懂了。求反函数的基本套路,反解法。反函数的图像和原图像关于直线 y = x y=x y=x对称。
若, ξ − U n i ( 0 , 1 ) \xi-Uni(0,1) ξ−Uni(0,1)满足均匀分布,则
逆累积分布函数为:
x
=
{
b
ln
(
2
ξ
)
+
μ
,
ξ
<
1
2
μ
−
b
ln
(
2
(
1
−
μ
)
)
,
ξ
⩾
1
2
x=\begin{cases}b\ln(2\xi)+\mu,\xi<\frac{1}{2} \\\mu-b\ln(2(1-\mu)),\xi\geqslant\frac{1}{2}\end{cases}
x={bln(2ξ)+μ,ξ<21μ−bln(2(1−μ)),ξ⩾21
若,
ξ
−
U
n
i
(
−
0.5
,
0.5
)
\xi-Uni(-0.5,0.5)
ξ−Uni(−0.5,0.5)满足的均匀分布。假定
ξ
′
−
U
n
i
(
−
0.5
,
0.5
)
\xi'-Uni(-0.5,0.5)
ξ′−Uni(−0.5,0.5),则
ξ
′
+
0.5
−
U
n
i
(
0
,
1
)
\xi'+0.5-Uni(0,1)
ξ′+0.5−Uni(0,1)的均匀分布,令
ξ
=
ξ
′
+
0.5
\xi=\xi'+0.5
ξ=ξ′+0.5,采用上述的结论得:
x
=
{
μ
+
b
ln
(
1
+
2
ξ
′
)
,
ξ
′
<
0
μ
−
b
ln
(
1
−
2
ξ
′
)
,
ξ
′
⩾
0
x=\begin{cases}\mu+b\ln(1+2\xi'),\xi'<0 \\\mu-b\ln(1-2\xi'),\xi' \geqslant0\end{cases}
x={μ+bln(1+2ξ′),ξ′<0μ−bln(1−2ξ′),ξ′⩾0
这样说的好处是,可以是将分段函数统一。
x
=
μ
−
b
∗
s
i
g
n
(
ξ
′
)
∗
l
n
(
1
−
2
∗
s
i
g
n
(
ξ
′
)
∗
ξ
)
x=\mu-b*sign(\xi')*ln(1-2*sign(\xi')*\xi)
x=μ−b∗sign(ξ′)∗ln(1−2∗sign(ξ′)∗ξ)
兄弟数据集解释
对称差集 ⨁ \bigoplus ⨁
对称差集 ⨁ \bigoplus ⨁:集合运算式, T = R ⨁ S = ( R ∪ S ) − ( R ∩ S ) T=R\bigoplus S=(R\cup S)-(R \cap S) T=R⨁S=(R∪S)−(R∩S)
记 Δ = ∣ R ⨁ S ∣ \Delta=|R\bigoplus S| Δ=∣R⨁S∣表示对称差集中的元素个数。
而集合 R R R和集合 S S S为兄弟数据集当且仅当 ∣ R ⨁ S ∣ = 1 |R\bigoplus S|=1 ∣R⨁S∣=1。
差分隐私定义概念延展(完整版)
对于 ∀ D , D ′ 满 足 \forall D,D'满足 ∀D,D′满足 ∣ D ⨁ D ′ ∣ = 1 , O ∈ R a n g e ( A ) |D\bigoplus D'|=1,O \in Range(A) ∣D⨁D′∣=1,O∈Range(A),如果算法 A A A满足 P r [ A ( D ) = O ] ⩽ e ε ∗ ∣ D ⨁ D ′ ∣ ∗ P r [ A ( D ′ ) = O ] Pr[A(D)=O] \leqslant e^{\varepsilon * |D \bigoplus D'|}*Pr[A(D')=O] Pr[A(D)=O]⩽eε∗∣D⨁D′∣∗Pr[A(D′)=O],则算法 A A A满足 ε ∗ ∣ D ⨁ D ′ ∣ \varepsilon * |D \bigoplus D'| ε∗∣D⨁D′∣-差分隐私。
由于定义的前提是满足 ∣ D ⨁ D ∣ = 1 |D \bigoplus D|=1 ∣D⨁D∣=1,所以就变成了 ε \varepsilon ε-差分隐私。
注:接下来的原理解释,需要用到 ∣ D ⨁ D ∣ |D \bigoplus D| ∣D⨁D∣的性质
差分隐私的组合原理
差分隐私的串行组合原理
- 条件:
- 算法 A i ( D ) A_i(D) Ai(D)分别满足 ε i \varepsilon_i εi-差分隐私
- 任意两个算法的随机过程相互独立
- 结论:
- 算法满足 ∑ i = 1 m ε i \displaystyle \sum_{i=1}^m \varepsilon_i i=1∑mεi-差分隐私
差分隐私的并行组合原理
- 条件
-
这里说的并行指的是,输入数据集的并行。
-
定义差分隐私算法所保护数据库集合 D D D的元素 x x x定义在集合 R R R上,即 R = d o m a i n ( x ) R=domain(x) R=domain(x),因此有 D ⊆ R D \subseteq R D⊆R。
令 { R 1 , R 2 , … , R t } \{R_1,R_2,\dots,R_t \} {R1,R2,…,Rt}为 R R R的一种划分,满足 R = ⋂ i = 1 t R i , R i ∩ R j = ∅ , i ≠ j R=\displaystyle \bigcap_{i=1}^tR_i,R_i \cap R_j=\emptyset,i \neq j R=i=1⋂tRi,Ri∩Rj=∅,i=j。
例如:差分隐私所保护的数据库中存储关于人的信息数据。其中 D D D表示一个具体的数据集作为算法的输入,而 R R R表示所有可用来表示一个人的信息集合。假定一种可能的划分是按照性别对数据库中的人进行划分,从而将人分为,男性,女性和未知,分别用 R 1 , R 2 , R 3 R_1,R_2,R_3 R1,R2,R3表示每种可能出现的所有人的集合。这些不同性别的人直接没有交集,同时合在一起组成所有的人。根据该划分规则可以将数据集划分为不同的自己,将满足划分子类 R i R_i Ri的数据自己为 D i D_i Di,则 D i = D ∩ R i D_i=D \cap R_i Di=D∩Ri。(这种数据集划分规则有种,完备集的赶脚,只是这种划分规则的指定,就很有说法了。)
-
结论
算法满足 ε \varepsilon ε-差分隐私。
重要说明(证明)
∀
i
≠
j
,
D
i
∩
D
j
=
∅
,
D
i
′
∩
D
j
′
=
∅
\forall i \neq j,D_i \cap D_j = \emptyset,D'_i \cap D'_j = \emptyset
∀i=j,Di∩Dj=∅,Di′∩Dj′=∅,因此对于
∑
i
=
1
m
∣
D
i
⨁
D
i
′
∣
\displaystyle \sum_{i=1}^m |D_i \bigoplus D'_i|
i=1∑m∣Di⨁Di′∣推论如下:
∑
i
=
1
m
∣
D
i
⨁
d
i
′
∣
=
∣
⋃
i
=
1
m
(
D
i
⨁
d
i
′
)
∣
=
∣
⋃
i
=
1
m
(
(
D
∩
R
i
)
⨁
(
D
′
∩
R
i
)
)
∣
=
∣
⋃
i
=
1
m
(
(
D
⨁
D
′
)
⨁
R
i
)
∣
=
∣
(
(
D
⨁
D
′
)
∩
⋃
i
=
1
m
R
i
∣
=
∣
(
D
⨁
D
′
)
∩
R
∣
\displaystyle \sum_{i=1}^m |D_i \bigoplus d'_i|=|\displaystyle \bigcup_{i=1}^m (D_i \bigoplus d'_i)|=|\displaystyle \bigcup_{i=1}^m((D \cap R_i)\bigoplus(D' \cap R_i))|\\=|\displaystyle \bigcup_{i=1}^m((D \bigoplus D') \bigoplus R_i)|=|((D \bigoplus D') \cap \displaystyle \bigcup_{i=1}^m R_i|=|(D \bigoplus D') \cap R|
i=1∑m∣Di⨁di′∣=∣i=1⋃m(Di⨁di′)∣=∣i=1⋃m((D∩Ri)⨁(D′∩Ri))∣=∣i=1⋃m((D⨁D′)⨁Ri)∣=∣((D⨁D′)∩i=1⋃mRi∣=∣(D⨁D′)∩R∣
因为
R
R
R为元素的定于有
D
⊆
R
,
D
′
⊆
R
D \subseteq R, D' \subseteq R
D⊆R,D′⊆R。因此,上述的推导最终结果为:
∑
i
=
1
m
∣
D
i
⨁
D
i
′
∣
=
∣
D
⨁
D
′
∣
=
1
\displaystyle \sum_{i=1}^m|D_i \bigoplus D'_i|=|D \bigoplus D'|=1
i=1∑m∣Di⨁Di′∣=∣D⨁D′∣=1
因此,在并行组合下的差分隐私算法满足 ε \varepsilon ε-差分隐私。
推论
- 理解,可以从上面的图上进行类比。至于怎么证明,没看懂。可参考MathThinker
参考自MathThinker