论文解读2019INFOCOM_Calibrate: Frequency Estimation and Heavy Hitter Identification with LDP

以下是本人对该论文的解读,如有不当,欢迎批评指正

INTRODUCTION

频数估计(frequency estimation)是高级数据分析的基础,有非常广泛的应用。比如每个网页作为一个item,谷歌作为collector想了解用户把哪些界面作为chrome浏览器的默认主页;某个APP的功能作为一个item,APP开发者想要了解用户更经常用APP中的哪些功能。在进行频数估计之后,设定一个阈值,collector就可以知道哪些item的频数超过了这个阈值,即Heavy hitter identification。

传统的方式要求用户将自己的item频数信息分享给collector,但是存在两个问题:用户不愿意分享个人数据;服务商在收集和处理过程中有可能泄露用户的item频数信息。

目前有研究用本地化差分(Local Privacy Preserving)的方法进行频数估计,比如RAPPOR。但是存在的问题是,在编码(Encode)、扰动(Perturb)、收集(Aggregate)之后,进行频数估计的时候,没有考虑到噪声和真实频数背后的先验知识。

因此,此论文通过对噪声和真实频数的分布进行建模,在编码、扰动、收集之后增加矫正(Calibrate)的步骤,可以降低本地化差分频数估计中的估计偏差(estimation error)。

BACKGROUND

A-Frequency Estimation

n n n个用户
d d d个属性: { 1 , 2 , . . . , d } \{1,2,...,d\} { 1,2,...,d}
f i f_i fi表示有item i i i的用户的个数
频数估计就是想知道 f i f_i fi,此处仅讨论一个item,也可以延伸到d个item

B-Heavy Hitter Identification

给定一个阈值,Heavy Hitter Identification目标是检测哪些item的频数超过了此阈值

C-Local Differential Privacy Algorithms

定义-Pure Local Differential Privacy:
当且仅当存在两个概率值 p ∗ p^* p q ∗ q^* q,对于所有item i i i存在: P r [ P E ( i ) ∈ { t ∣ S u p p o r t ( t ) } ] = p ∗ Pr[PE(i)\in\{t|Support(t)\}]=p^* Pr[PE(i){ tSupport(t)}]=p ∀ j ̸ = i , P r [ P E ( j ) ∈ { t ∣ S u p p o r t ( t ) } ] = q ∗ \forall j\not=i,Pr[PE(j)\in\{t|Support(t)\}]=q^* j̸=i,Pr[PE(j){ tSupport(t)}]=q
S u p p o r t ( t ) Support(t) Support(t)表示 t t t支持的扰动数值或者向量的item集合。

在收集阶段,collector通过以下公式估计频数: f i ^ = ∑ u I s u p p o r t ( t u ) ( i ) − n q ∗ p ∗ − q ∗ , \hat{f_i}=\frac{\sum_{u}\mathbb{I}_{support(t_u)}(i)-nq^*}{p^*-q^*}, fi^=pq

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值