以下是本人对该论文的解读,如有不当,欢迎批评指正
INTRODUCTION
频数估计(frequency estimation)是高级数据分析的基础,有非常广泛的应用。比如每个网页作为一个item,谷歌作为collector想了解用户把哪些界面作为chrome浏览器的默认主页;某个APP的功能作为一个item,APP开发者想要了解用户更经常用APP中的哪些功能。在进行频数估计之后,设定一个阈值,collector就可以知道哪些item的频数超过了这个阈值,即Heavy hitter identification。
传统的方式要求用户将自己的item频数信息分享给collector,但是存在两个问题:用户不愿意分享个人数据;服务商在收集和处理过程中有可能泄露用户的item频数信息。
目前有研究用本地化差分(Local Privacy Preserving)的方法进行频数估计,比如RAPPOR。但是存在的问题是,在编码(Encode)、扰动(Perturb)、收集(Aggregate)之后,进行频数估计的时候,没有考虑到噪声和真实频数背后的先验知识。
因此,此论文通过对噪声和真实频数的分布进行建模,在编码、扰动、收集之后增加矫正(Calibrate)的步骤,可以降低本地化差分频数估计中的估计偏差(estimation error)。
BACKGROUND
A-Frequency Estimation
n n n个用户
d d d个属性: { 1 , 2 , . . . , d } \{1,2,...,d\} {
1,2,...,d}
f i f_i fi表示有item i i i的用户的个数
频数估计就是想知道 f i f_i fi,此处仅讨论一个item,也可以延伸到d个item
B-Heavy Hitter Identification
给定一个阈值,Heavy Hitter Identification目标是检测哪些item的频数超过了此阈值
C-Local Differential Privacy Algorithms
定义-Pure Local Differential Privacy:
当且仅当存在两个概率值 p ∗ p^* p∗和 q ∗ q^* q∗,对于所有item i i i存在: P r [ P E ( i ) ∈ { t ∣ S u p p o r t ( t ) } ] = p ∗ Pr[PE(i)\in\{t|Support(t)\}]=p^* Pr[PE(i)∈{
t∣Support(t)}]=p∗ ∀ j ̸ = i , P r [ P E ( j ) ∈ { t ∣ S u p p o r t ( t ) } ] = q ∗ \forall j\not=i,Pr[PE(j)\in\{t|Support(t)\}]=q^* ∀j̸=i,Pr[PE(j)∈{
t∣Support(t)}]=q∗
S u p p o r t ( t ) Support(t) Support(t)表示 t t t支持的扰动数值或者向量的item集合。
在收集阶段,collector通过以下公式估计频数: f i ^ = ∑ u I s u p p o r t ( t u ) ( i ) − n q ∗ p ∗ − q ∗ , \hat{f_i}=\frac{\sum_{u}\mathbb{I}_{support(t_u)}(i)-nq^*}{p^*-q^*}, fi^=p∗−q∗∑