文章目录
A. Differential Privacy Guarantees of OSSE
概率比的上限
首先有三个定义
- G ∼ Geo(1− q):参数为1-q的几何分布
- A ∼ Bern§ :参数为p的伯努利分布
- Bn ∼ Bi(n, p):参数为n和p的二项分布
推论
直接推出
推论2
23–>24可以理解成
(Pr{G + Bn = α}+Pr{第n+1次伯努利实验失败})/Pr{G + Bn = α} +
(Pr{G + Bn = α-1}+Pr{第n+1次伯努利实验成功}/Pr{G + Bn = α}=
1-p【Pr{第n+1次伯努利实验失败}】+(p/q)*上式【p表示第n+1次伯努利实验成功,q表示几何分布要少一次】
便可以得到
推论3
将原式分解为多个上下二项分布B下标差1的概率比的乘积,于是相邻概率比的上下可约,再根据(19)和(20)可证
文件的差异性隐私
- D和D’为只有一个文件不同的数据集,不同的两个文件只有一个关键词w*和w‘*不同
- M表示将一个数据集D和一个关键词w作为输入,输出w的模糊访问模式的算法
- π是特定观察到的一个模糊访问模式,π[i]表示观察到的第i个文件的次数
于是有
当w不属于 {w∗, w’∗}时,上面等式的概率为1
当w属于其中一个时,假设w=w∗,此时为第k个文档包含该关键词
那么模糊访问模式中除了Πw∗[k]和Πw∗ [lk]
大于上界,就大于所有
那么可以得到如下结论
关键词的差异化隐私
对于一次查询关键词~w与 ~w中只有w∈ ~w和w’∈ ~w’不同其他都相同,那么有:
定义:
- D0,1表示这个文件没有关键词w但是又关键词w‘ {D0,0,D1,1,D1,0}的定义类似,那么又有
可得到
对i∈[|h|],有
这里的gi+n是比定义里的gl将w和w’的位置有一个为存在时都减去了的,所以后面针对只有w和只有w‘的情况,加上了|Di0,1|和|Di1,0|
对于(40)来说当|Di0,1|为0时取得最大,对于(41)来说当|Di1,0|为0时取得最大,且因为
可得到
综合(35)和(42)可以得到
|D0,1|+|D1,0|表示对数据集D,用~w查询和用 ~w’查询,得到的返回中,不同文档的数据,把他记为d
根据关键词隐私的定义
又可以得出
ctrmax
- Fmax:被最多文件所包含的关键词,被包含的次数
- 索引构建成功的条件:ctrmax严格大于所有拥有同一个关键词和共享标签的文件数量则索引就可构建成功
下面证明当 ctrmax = c·ln Fmax/ ln ln Fmax 时,成功概率大于1 − 1/n
- ni,j:包含关键词wi和标签j的文档数量
- S:表示成功
(45)——>(46):可能有多个文档对应一个lable(l=h(D)),对于关键词wi,与wi匹配次数最多的那个lable,所匹配的次数
(46)——>(47):并集的概率<=概率的和
(49)是怎么得到的?
那么当有如下条件时
、
成功的概率要想大于1-1/n,那么c有限制条件:
Ew
- Ew:对某个关键词wi进行查询,返回的文档数的期望
均匀分布下的Ew
当所有关键词有相同的概率用于搜索时,即 |D(w)| = Fmax,那么有:
Zipfian Distribution下的Ew
百度百科解释的Zipfian Distribution
一个自然语言话语语料库中的单个单词的频率与它的排名(它按频率递减的顺序在一个排序列表中的位置)成反比
假设所有的关键词按照频率排序,那么有 |D(w(1))| = Fmax,且