如果对一个事件
A
A
A越确定,该事件的概率
P
(
A
)
P(A)
P(A)就越大;对一个事件
B
B
B越不确定,则该事件的概率
P
(
B
)
P(B)
P(B)就越小。通过事件
A
A
A,可以增大事件
B
B
B的确定性,也可能造成干扰降低对事件
B
B
B的确定性。
在隐私中,为了可能地保护隐私,应尽可能让攻击者在发布统计数据后对某个事件的确定性,和发布前对该事件的确定性相差不大。发布统计数据后对某个事件的确定性称为后验知识,发布前对该事件的确定性称为先验知识。如发布前事件A的概率为
P
(
A
)
=
0.3
P(A)=0.3
P(A)=0.3,发布统计数据
R
(
A
)
R(A)
R(A)后,攻击者对事件A的概率确定性提高到了
P
(
A
∣
R
(
A
)
)
=
0.9
P(A|R(A))=0.9
P(A∣R(A))=0.9,那么在某种程度上泄漏了事件
A
A
A的隐私,不能够很好地保护隐私。
隐私上缺口(upward (alpha, beta)-privacy breach)
定义(
u
p
w
a
r
d
(
α
,
β
)
−
p
r
i
v
a
c
y
b
r
e
a
c
h
upward\ (\alpha,\beta)-privacy\ breach
upward (α,β)−privacy breach):1定义
R
R
R是输入为
u
∈
D
U
u\in D_{U}
u∈DU,输出为
v
∈
D
V
v\in D_{V}
v∈DV的算法。如果对于某个概率分布
f
f
f,存在一个预测器
ϕ
\phi
ϕ,有:
∃
u
∈
D
u
,
∃
v
∈
D
v
,
s
.
t
.
P
f
(
ϕ
(
u
)
)
≤
α
a
n
d
P
f
(
ϕ
(
u
)
∣
R
(
u
)
=
v
)
≥
β
,
\exists u\in D_u,\exists v\in D_v, s.t.\ P_{f}(\phi(u))\leq \alpha\ and\ P_{f}(\phi(u)|R(u)=v)\geq \beta,
∃u∈Du,∃v∈Dv,s.t. Pf(ϕ(u))≤α and Pf(ϕ(u)∣R(u)=v)≥β,
则称算法
R
R
R存在(
α
,
β
\alpha,\beta
α,β)隐私上缺口(upward (alpha, beta)-privacy breach)。
MARK:
- 算法 R R R可以简单理解为一个函数,定义域为 D U D_U DU,值域为 D V D_V DV。
- 算法 R R R可以认为是对数据(比如疾病)进行了处理后发布,一种常用的方式是加噪处理。
- 例:若 α = 0.3 , β = 0.9 \alpha=0.3,\beta=0.9 α=0.3,β=0.9,若算法 R R R存在隐私上缺口,那么攻击者通过发布的信息得到了额外的知识,对 u u u能够更加准确的预测。
隐私下缺口(downward (alpha, beta)-privacy breach)
同样地可以定义隐私下缺口:
定义(
d
o
w
n
w
a
r
d
(
α
,
β
)
−
p
r
i
v
a
c
y
b
r
e
a
c
h
downward\ (\alpha,\beta)-privacy\ breach
downward (α,β)−privacy breach):定义
R
R
R是输入为
u
∈
D
U
u\in D_{U}
u∈DU,输出为
v
∈
D
V
v\in D_{V}
v∈DV的算法。如果对于某个概率分布
f
f
f,存在一个预测器
ϕ
\phi
ϕ,有:
∃
u
∈
D
u
,
∃
v
∈
D
v
,
s
.
t
.
P
f
(
ϕ
(
u
)
)
≤
β
a
n
d
P
f
(
ϕ
(
u
)
∣
R
(
u
)
=
v
)
≥
α
,
\exists u\in D_u,\exists v\in D_v, s.t.\ P_{f}(\phi(u))\leq \beta\ and\ P_{f}(\phi(u)|R(u)=v)\geq \alpha,
∃u∈Du,∃v∈Dv,s.t. Pf(ϕ(u))≤β and Pf(ϕ(u)∣R(u)=v)≥α,
则称算法
R
R
R存在(
α
,
β
\alpha,\beta
α,β)隐私上缺口(upward (alpha, beta)-privacy breach)。
MARK:
- 注意 α , β \alpha,\beta α,β互换位置了;
- 例:若 α = 0.05 , β = 0.6 \alpha=0.05,\beta=0.6 α=0.05,β=0.6,若算法 R R R存在隐私上缺口,那么攻击者通过发布的信息可以非常确定 u u u是不太可能出现的。
(alpha, beta)-privacy
定义:( ( α , β ) − p r i v a c y (\alpha,\beta)-privacy (α,β)−privacy).定义 R R R是输入为 u ∈ D U u\in D_{U} u∈DU,输出为 v ∈ D V v\in D_{V} v∈DV的一个算法。当 R R R不存在( α , β \alpha,\beta α,β)隐私上缺口和( α , β \alpha,\beta α,β)隐私下缺口时,称 R R R满足 ( α , β ) − p r i v a c y (\alpha, \beta)-privacy (α,β)−privacy。
MARK
- 该定义从算法的角度,而不是数据的角度定义了隐私;
- 该定义限制了攻击者在看到发布数据后,对任意事件确定性的变化,即概率差不超过 β − α \beta-\alpha β−α。
https://www.researchgate.net/publication/220626610_Privacy-Preserving_Data_Publishing ↩︎