论文解读2019INFOCOM_Calibrate: Frequency Estimation and Heavy Hitter Identification with LDP

最新推荐文章于 2024-07-13 21:58:51 发布

Rachelxuan11

最新推荐文章于 2024-07-13 21:58:51 发布

阅读量832

点赞数 1

分类专栏：本地化差分隐私保护

本文链接：https://blog.csdn.net/qq_25721099/article/details/88713993

版权

本文介绍了论文《Calibrate: Frequency Estimation and Heavy Hitter Identification with LDP》的内容，探讨了在本地化差分隐私（LDP）环境下，如何通过校准（Calibrate）步骤改进频数估计的准确性，降低估计误差。论文提出了将频数估计视为真实频数与噪声的和，并利用贝叶斯法则来估计更接近真实的频数，从而提高重点击（Heavy Hitter）识别的性能。

摘要由CSDN通过智能技术生成

以下是本人对该论文的解读，如有不当，欢迎批评指正

INTRODUCTION

频数估计（frequency estimation）是高级数据分析的基础，有非常广泛的应用。比如每个网页作为一个item，谷歌作为collector想了解用户把哪些界面作为chrome浏览器的默认主页；某个APP的功能作为一个item，APP开发者想要了解用户更经常用APP中的哪些功能。在进行频数估计之后，设定一个阈值，collector就可以知道哪些item的频数超过了这个阈值，即Heavy hitter identification。

传统的方式要求用户将自己的item频数信息分享给collector，但是存在两个问题：用户不愿意分享个人数据；服务商在收集和处理过程中有可能泄露用户的item频数信息。

目前有研究用本地化差分（Local Privacy Preserving）的方法进行频数估计，比如RAPPOR。但是存在的问题是，在编码(Encode)、扰动(Perturb)、收集(Aggregate)之后，进行频数估计的时候，没有考虑到噪声和真实频数背后的先验知识。

因此，此论文通过对噪声和真实频数的分布进行建模，在编码、扰动、收集之后增加矫正(Calibrate)的步骤，可以降低本地化差分频数估计中的估计偏差（estimation error）。

BACKGROUND

A-Frequency Estimation

$n$ 个用户
$d$ 个属性: ${1,2,...,d\}$
$f_i$ 表示有item $i$ 的用户的个数
频数估计就是想知道 $f_i$ ，此处仅讨论一个item，也可以延伸到d个item

B-Heavy Hitter Identification

给定一个阈值，Heavy Hitter Identification目标是检测哪些item的频数超过了此阈值

C-Local Differential Privacy Algorithms

定义-Pure Local Differential Privacy:
当且仅当存在两个概率值 $p^*$ 和 $q^*$ ，对于所有item $i$ 存在： $Pr[PE(i)\in\{t|Support(t)\}]=p^*$ $\forall j\not=i,Pr[PE(j)\in\{t|Support(t)\}]=q^*$
$S u p p o r t (t)$ 表示 $t$ 支持的扰动数值或者向量的item集合。