最近实验室的师弟汇报高斯机制,自己也经常遇到,所以学习一下。本文来自Dwork女士的《The Algorithmic Foundations of Differential Privacy》的附录A,其中有一些细节没有看懂,期盼有明白的同学能够给予解答,同时也希望能指出本文存在的错误。
高斯机制
( ϵ , δ ) − D P (\epsilon, \delta)-DP (ϵ,δ)−DP
定义一:(隐私损失 privacy loss)对于两个相邻的数据集
D
,
D
′
D,D'
D,D′(即
∣
∣
D
−
D
′
∣
∣
1
=
1
||D-D'||_1=1
∣∣D−D′∣∣1=1),输出
o
o
o 和随机函数
M
M
M ,该随机函数造成的隐私损失
c
M
(
o
,
D
,
D
′
)
c_M(o,D,D')
cM(o,D,D′)定义为
c
M
(
o
,
D
,
D
′
)
:
=
l
n
P
r
[
M
(
D
)
=
o
]
P
r
[
M
(
D
′
)
=
o
]
c_M(o,D,D'):=ln\frac{Pr[M(D)=o]}{Pr[M(D')=o]}
cM(o,D,D′):=lnPr[M(D′)=o]Pr[M(D)=o]
定理一:随机函数
M
M
M是
(
ϵ
,
δ
)
(\epsilon, \delta)
(ϵ,δ)-DP 的充分条件是其隐私损失
c
M
(
o
,
D
,
D
′
)
c_M(o,D,D')
cM(o,D,D′)满足
P
r
[
c
M
(
o
,
D
,
D
′
)
>
ϵ
]
≤
δ
Pr[c_M(o,D,D')>\epsilon]\leq\delta
Pr[cM(o,D,D′)>ϵ]≤δ
证明:定义
B
=
{
o
:
c
M
(
o
,
D
,
D
′
)
>
ϵ
}
B=\{o:c_M(o,D,D')>\epsilon\}
B={o:cM(o,D,D′)>ϵ}
P
r
[
M
(
D
)
∈
S
]
=
P
r
[
M
(
D
)
∈
S
∩
B
]
+
P
r
[
M
(
D
)
∈
(
S
−
B
)
]
≤
P
r
[
M
(
D
)
∈
B
]
+
P
r
[
M
(
D
)
∈
(
S
−
B
)
]
≤
P
r
[
M
(
D
)
∈
B
]
+
e
ϵ
P
r
[
M
(
D
′
)
∈
(
S
−
B
)
]
≤
P
r
[
M
(
D
)
∈
B
]
+
e
ϵ
P
r
[
M
(
D
′
)
∈
S
]
\begin{aligned} Pr[M(D) \in S]&=Pr[M(D)\in S\cap B] + Pr[M(D)\in (S-B)] \\ &\leq Pr[M(D)\in B]+Pr[M(D)\in(S-B)] \\ &\leq Pr[M(D)\in B]+e^\epsilon Pr[M(D')\in(S-B)]\\ &\leq Pr[M(D)\in B]+e^\epsilon Pr[M(D')\in S] \\ \end{aligned}
Pr[M(D)∈S]=Pr[M(D)∈S∩B]+Pr[M(D)∈(S−B)]≤Pr[M(D)∈B]+Pr[M(D)∈(S−B)]≤Pr[M(D)∈B]+eϵPr[M(D′)∈(S−B)]≤Pr[M(D)∈B]+eϵPr[M(D′)∈S]
如果
P
r
[
c
M
(
o
,
D
,
D
′
)
>
ϵ
]
<
δ
Pr[c_M(o,D,D')>\epsilon]<\delta
Pr[cM(o,D,D′)>ϵ]<δ ,
则Pr[M(D)
∈
\in
∈ S]
≤
\leq
≤ Pr[M(D)
∈
\in
∈ B] + e
ϵ
^\epsilon
ϵPr[M(D’)
∈
\in
∈ S].
即算法M满足
(
ϵ
,
δ
)
−
D
P
(\epsilon,\delta)-DP
(ϵ,δ)−DP.
说明:
(
ϵ
,
δ
)
−
D
P
(\epsilon, \delta)-DP
(ϵ,δ)−DP的充分条件是隐私损失被限制在
ϵ
\epsilon
ϵ之内,同时也允许很小的概率
δ
\delta
δ打破这个限制。
其中
△
2
f
=
m
a
x
a
d
j
a
c
e
n
t
D
,
D
′
∣
∣
f
(
D
)
−
f
(
D
′
)
∣
∣
2
\triangle_2f=max_{{adjacent}_{D,D'}}||f(D)-f(D')||_2
△2f=maxadjacentD,D′∣∣f(D)−f(D′)∣∣2,f为查询函数。
P
r
[
M
(
D
)
=
o
]
P
r
[
M
(
D
′
)
=
o
]
=
P
r
[
f
(
D
)
+
N
=
o
]
P
r
[
f
(
D
′
)
+
N
=
o
]
=
P
r
[
N
=
o
−
f
(
D
)
]
P
r
[
N
=
o
−
f
(
D
′
)
]
=
e
−
[
o
−
f
(
D
)
]
2
2
σ
2
e
−
[
o
−
f
(
D
′
)
]
2
2
σ
2
=
e
−
[
o
−
f
(
D
)
]
2
2
σ
2
e
−
[
o
−
f
(
D
)
+
Δ
f
]
2
2
σ
2
=
e
−
x
2
2
σ
2
e
−
(
x
+
Δ
f
)
2
2
σ
2
\begin{aligned} \frac{Pr[M(D)=o]}{Pr[M(D')=o]}&=\frac{Pr[f(D)+N=o]}{Pr[f(D')+N=o]}\\&=\frac{Pr[N=o-f(D)]}{Pr[N=o-f(D')]}\\&=\frac{e^{-{\frac{[o-f(D)]^2}{2\sigma^2}}}}{e^{-{\frac{[o-f(D')]^2}{2\sigma^2}}}}\\&=\frac{e^{-{\frac{[o-f(D)]^2}{2\sigma^2}}}}{e^{-\frac{[o-f(D)+\Delta f]^2}{2\sigma^2}}}\\&=\frac{e^{-{\frac{x^2}{2\sigma^2}}}}{e^{-\frac{(x+\Delta f)^2}{2\sigma^2}}} \end{aligned}
Pr[M(D′)=o]Pr[M(D)=o]=Pr[f(D′)+N=o]Pr[f(D)+N=o]=Pr[N=o−f(D′)]Pr[N=o−f(D)]=e−2σ2[o−f(D′)]2e−2σ2[o−f(D)]2=e−2σ2[o−f(D)+Δf]2e−2σ2[o−f(D)]2=e−2σ2(x+Δf)2e−2σ2x2
由于概率恒正
∣
l
n
e
−
x
2
2
σ
2
e
−
(
x
+
Δ
f
)
2
2
σ
2
∣
=
∣
l
n
e
−
1
2
σ
2
[
x
2
−
(
x
+
Δ
f
)
2
]
∣
=
∣
−
1
2
σ
2
[
x
2
−
(
x
2
+
2
x
Δ
f
+
Δ
f
2
)
]
∣
=
∣
1
2
σ
2
(
2
x
Δ
f
+
(
Δ
f
)
2
)
∣
<
ϵ
\begin{aligned} |ln\frac{e^{-{\frac{x^2}{2\sigma^2}}}}{e^{-\frac{(x+\Delta f)^2}{2\sigma^2}}}|&=|lne^{\frac{-1}{2\sigma^2}[x^2-(x+\Delta f)^2]}|\\&=|-\frac{1}{2\sigma^2}[x^2-(x^2+2x\Delta f +\Delta f^2)]|\\&=|\frac{1}{2\sigma^2}(2x\Delta f+(\Delta f)^2)|\\&<\epsilon \end{aligned}
∣lne−2σ2(x+Δf)2e−2σ2x2∣=∣lne2σ2−1[x2−(x+Δf)2]∣=∣−2σ21[x2−(x2+2xΔf+Δf2)]∣=∣2σ21(2xΔf+(Δf)2)∣<ϵ
说明:书上少写了一个t
P
r
[
x
>
t
]
=
∫
t
∞
1
2
π
σ
e
−
x
2
2
σ
2
d
x
≤
−
σ
2
π
∫
t
∞
1
t
e
−
x
2
2
σ
2
d
−
x
2
2
σ
2
≤
σ
2
π
t
e
−
t
2
2
σ
2
\begin{aligned} Pr[x>t]&=\int_{t}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}dx\\&\le-\frac{\sigma}{\sqrt{2\pi}}\int_{t}^{\infty}\frac{1}{t}e^{-\frac{x^2}{2\sigma^2}}d-\frac{x^2}{2\sigma^2}\\&\le\frac{\sigma}{\sqrt{2\pi}t}e^{-\frac{t^2}{2\sigma^2}} \end{aligned}
Pr[x>t]=∫t∞2πσ1e−2σ2x2dx≤−2πσ∫t∞t1e−2σ2x2d−2σ2x2≤2πtσe−2σ2t2
1
2
σ
2
(
σ
2
ϵ
Δ
f
−
Δ
f
2
)
2
=
1
2
σ
2
[
Δ
f
(
c
2
ϵ
−
1
2
)
]
2
=
[
Δ
f
(
c
2
ϵ
−
1
2
)
]
2
[
ϵ
2
c
2
(
Δ
f
)
2
]
1
2
=
1
2
(
c
2
ϵ
−
1
2
)
2
ϵ
2
c
2
=
1
2
(
c
2
−
ϵ
+
ϵ
2
/
4
c
2
)
\begin{aligned} \frac{1}{2\sigma^2}(\frac{\sigma^2\epsilon}{\Delta f}-\frac{\Delta f}{2})^2&=\frac{1}{2\sigma^2}[\Delta f(\frac{c^2}{\epsilon}-\frac{1}{2})]^2\\&=[\Delta f(\frac{c^2}{\epsilon}-\frac{1}{2})]^2[\frac{\epsilon ^2}{c^2(\Delta f)^2}]\frac{1}{2}\\&=\frac{1}{2}(\frac{c^2}{\epsilon}-\frac{1}{2})^2\frac{\epsilon^2}{c^2}\\&=\frac{1}{2}(c^2-\epsilon+\epsilon^2/4c^2) \end{aligned}
2σ21(Δfσ2ϵ−2Δf)2=2σ21[Δf(ϵc2−21)]2=[Δf(ϵc2−21)]2[c2(Δf)2ϵ2]21=21(ϵc2−21)2c2ϵ2=21(c2−ϵ+ϵ2/4c2)
先讨论第一项
l
n
(
(
σ
2
ϵ
/
Δ
f
−
Δ
f
/
2
)
/
σ
)
ln((\sigma^2\epsilon/\Delta f-\Delta f/2)/\sigma)
ln((σ2ϵ/Δf−Δf/2)/σ),得出c的一个不太紧的界,由第二项
(
σ
2
ϵ
/
Δ
f
−
Δ
f
/
2
)
2
/
2
σ
2
(\sigma^2\epsilon/\Delta f-\Delta f/2)^2/2\sigma^2
(σ2ϵ/Δf−Δf/2)2/2σ2得出一个关于c更紧的界(tighter)。不清楚
c
≥
1
c\ge1
c≥1这一条件怎么来的,由对数函数的性质可推出
c
≥
3
/
2
c\ge3/2
c≥3/2.
这里能去掉第一项的原因是当
c
=
3
/
2
c=3/2
c=3/2时,第一项为0;当
c
>
3
/
2
c>3/2
c>3/2时,第一项大于0.故只留第二项这个不等式也是成立的.
证明结束.
总结
1、为什么
σ
=
c
Δ
f
/
ϵ
\sigma=c\Delta f/\epsilon
σ=cΔf/ϵ要写成这种形式;
2、不清楚
c
≥
1
c\ge1
c≥1怎么来的;
3、再看看高斯在DP- SGD中的应用.
references:
The Algorithmic Foundations of Differential Privacy
Composition Theorem