Discrete Distribution Estimation under Local Privacy翻译

正在读ICML上的“Discrete Distribution Estimation under Local Privacy”,人工翻译了一下:

Abstract
收集和分析用户数据驱使了app和web生态系统的发展,但是带来privacy的风险。本文进行了local privacy下的discrete distribution estimation,一个内置的服务器可以在不收集底层数据的前提下,学习感兴趣目录数据的distribution. 我们展示了新的mechanism,包括hashed的k-RR,它empirical上在所有privacy level上超过了现存mechanism的utility. 新的理论结果展示了不同privacy regime下k-RR和现存的RAPPOR的阶最优性。

1. Introduction
软件和服务器提供者认识到收集和分析用户数据是提高他们服务的关键。用户交互的数据库为分析提供insight, 同时为机器学习模型提供训练数据。但是这些数据库的收集是有风险的,服务商能否保证数据是安全的,不被非允许访问?数据的误用会侵犯用户的隐私同时使服务商蒙羞。
一个最小化风险的方法是存储更少的数据:服务商可以考虑收集哪种数据以及存储时间。然而,即使是一个严格处理的数据库也会涉及用户隐私。在现在的一个著名研究中,Narayanan&Shmatikov展示了如何逆匿名化Netflix上的观看记录,这是一个公众的推荐系统竞赛。虽然大多数服务商不会故意放出匿名数据库,但是安全泄露意味着即使内部的、匿名的数据库也有可能成为安全问题。
幸运的是,数学表达式可以在不收集源数据的条件下,具备人口级别数据的优点。Local differential privacy就是这样一种表达式,要求每个设备(或者对应于云服务的每个部分)在服务商logging mechanism下仅仅分享一个源数据的噪声版本。无论何种计算被用在local differential privacy mechanism的噪声输出上,任何推断单个记录性质的尝试都有很大可能发生错误。但是不是所有differential privacy mechanism在utility方面都是相同的:一些机制在给定分析、数据量和期望privacy level时有更佳的准确度。

Private distribution estimation
本文研究local differential privacy下discrete distribution estimation的最基本问题。我们关注于discrete distribution estimation,因为它使得许多有用的能力有可能,包括使用数据的失效,和count-based机器学习模型,比如naive Bayes. 我们从empirical上考虑maximum likelihood和minimax distribution estimation,并且学习了在许多loss function和privacy regime下local differential privacy的代价。特别地,我们从理论和empirical角度比较了2个最近的local privacy机制的表现:
(a)RAPPOR;
(b)K-RR;

Our contribution
1,对于binary alphabets,我们证明了Warner的randomized response模型对于任何loss function和privacy level都是globally optimal的。
2,对于k-ary alphabets,我们显示RAPPOR在high privacy regime下是order optimal的,在low privacy regime下对于l1&l2 loss使用empirical estimator是严格sub-optimal的。相反的,k-RR在low privacy regime下是order optimal的,在high privacy regime下是sub-optimal的。
3,大范围的仿真显示,对于k-RR和RAPPOR,最佳的decoding算法取决于底层distribution的真实形状。对于skewed distribution,projected estimator在大范围的privacy level和样本大小下提供最佳的utility.
4,对于open alphabets, 其中输入符号是不可数的,我们建立了O-RR机制(使用hash functions&cohorts对k-RR的延伸)并且提供了empirical上的证明,O-RR的performance能够在大范围的privacy setting下达到或超过RAPPOR.
5,我们对closed k-ary表使用O-RR机制,置换hash functions。我们提供了empirical上的证明,O-RR的表现能够在low&high privacy regime下达到或超过k-RR和RAPPOR.

Related work
有多篇论文讨论了local privacy下的distribution estimation,特别地,有几篇文章与本文相关。
Warner是第一个研究local privacy setting并且提出randomized response模型。
Kairouz提出了k-RR并且显示它在low privacy regime下对于一系列信息理论实用性函数是optimal的,它将被延伸至open alphabets.
Duchi是第一个在local setting下运用differential privacy,为了学习在high privacy regime下privacy和minimax distribution estimation的trade-off,同时也为了提出k-RAPPOR的核心。
Erlingsson提出了RAPPOR,系统的解决了private distribution estimation一系列实际问题,包括对有访问多个报告攻击者的robustness和open alphabet下的private distribution estimation. RAPPOR已经被用在Chrome上以允许Google隐私地控制主页上恶意软件的影响。
Private distribution estimation同样出现在全球的隐私内容中,一个可信的服务商放出随机的数据(比如NIH释放医疗数据)以保护敏感的用户信息。

2. Preliminaries
2.1 Local differential privacy
当ε很小,敌人无法可信地恢复X的真实值。

2.2 Private distribution estimation
我们的目标是estimate distribution vector p from Yn

Privacy vs. Utility
这个问题,虽然有很大的价值,但是总体上是无法解决的。事实上,在non-private setting下找到minimax estimator对于许多loss function已经很难了。比如,l1loss下的minimax estimator在今天仍然是未知的。然而,在高privacy regime,我们可以限制任何differential privacy机制下的minimax风险。

Proposition 1
这个结果显示在高privacy regime下,数据库的有效样本大小从n下降到nε2/k. 换句话说,k/ε2的额外样本被需要以实现同样的minimax risk. 这对于大alphabet是有问题的。我们的问题显示:
(a)这个问题可以使用共生群形式的散列和k-RR的组合部分避免。
(b)对alphabet大小的依赖在低privacy regime逐渐下降。

3. Binary Alphabets
在这个部分,我们学习binary alphabets条件下private distribution estimation的问题。特别地,我们显示W-RR模型对于binary distribution minimax estimation是最优的。在W-RR中,采访者翻转一枚硬币,然后一部分η的参与者回答问题“你预测了P对吗?”,而剩下的参与者回答否定的“你预测了非P对吗?”,不透露他们各自回答了什么问题。
很容易证明,上述机制满足local differential privacy要求的限制。

Theorem 2
对于所有的binary distribution p,所有的loss function l,和所有的隐私层次ε,QWRR对于private minimax distribution estimation是最优解。

Proof sketch
Kairouz显示W-RR从Markovian角度主宰了所有其他的differential private机制:对于任意的binary differential private机制Q,都有2*2的随机映射矩阵W,满足Q=W*QWRR. 因此,对于任意遵循数据处理不等式(r(Q)<=r(Q.W))的冒险函数r(.),对于任意binary differential private机制Q,我们都有r(QWRR)<=r(Q). 在补充部分,我们证明rl,ε,k,n(Q)遵从数据处理不等式,因此W-RR在minimax distribution estimation下实现最优privacy-utility trade-off.

4.k-ray Alphabets
以上,我们看到W-RR对于所有privacy level和所有loss function都是最优的。然而,它只能被应用于binary alphabets. 在这个部分,我们学习对于k-ary alphabets的最优privacy机制。我们显示,k-RAPPOR在l1和l2 loss下,对于高privacy regime是阶最优的,对于低privacy regime是次佳的。相反的,k-RR对于低privacy regime是最佳的,对于高privacy regime是次佳的。

4.1The k-ary Randomized Response
k-RR机制是一种local differential privacy机制,它把X随机地投射向自己。
K-RR可以被视作W-RR机制的多种选择的实现(注意到,当k=2,k-RR下降到W-RR)。在Kairouz的论文中,k-RR机制对于大量information theoretic utility function在低privacy regime是最优的。

Empirical estimation under k-RR

Proposition 3

Constraining empirical estimates to Sk
容易证明||pKRR||1=1,然而一些pKRR的输入项可能是负值(特别是对于n为小值时),几个有效的补救方法:
(a)将负数项截断为0,然后重新对整个向量归一化。
(b)将pKRR投影到概率单值向量。

4.2k-RAPPOR
RAPPOR是在强local differential privacy保证下从用户端收集数据的开源工具。RAPPOR的最简单版本,叫作basic one-time RAPPOR,在这里称作k-RAPPOR,第一次出现在Duchi的论文中。k-RAPPOR将输入的k大小的X映射到2k大小的Y. 在k-RAPPOR中,我们首先将X映射到X’=Rk,这是k维欧几里得空间。准确的,X=xi被映射到X’=ei,Rk中第i个标准的基础向量,然后我们独立地随机化X’中的系数获得private向量Y∈{0,1}k. 正式的,Y中的第j个系数:在概率…条件下Y(j)=X’(j),在概率…条件下1-X’(j). Qk-RAPPOR中的随机化是ε-local differential private的。

Empirical estimation under k-RAPPOR
因为Tj/n几乎一定收敛于mj,pj’几乎一定收敛于pj,就像是k-RR一样,我们可以通过截取并归一化或者投射限制p到Sk。

Proposition 4

4.3Theoretical Analysis
我们现在分析了与maximum likelihood estimation相关的k-RR和k-RAPPOR在non-privatized数据中的表现。在non-private setting,maximum likelihood estimator有在l1 loss下的worst case risk…和在l22 loss下的worst case risk…

Performance under k-RR
比较等式与观察,我们看到为了在non-private setting实现同样的l22损失,需要额外的…样本。对于小ε,样本大小n下降至nε2/k2(2种loss下)。与Proposition 1相比,这个结果表明在高privacy regime下,k-RR不是最优的。然而,当ε≈lnk,样本大小衰减至n/4(2种loss下)。这个结果表明,当k-RR在小ε下不是最优时,它在lnk阶是最优的。注意到,k-RR对这种low privacy regime提供了一种自然的解释:特别地,设定ε=lnk,证明了概率是对半的,一个直观的、可信的概念。

Performance under k-RAPPOR
对比等式与观察,我们看到为了在non-private setting实现同样的l22损失,需要额外的…样本。同样的,需要额外的…样本实现同样的l1损失。对于小ε,n下降至nε2/k4(2种loss下)。与Proposition 1相比,这个结果表明在高privacy regime下,k-RAPPOR是最优的。然而,当ε≈lnk,n衰减至n/√k(2种loss下),这表明k-RAPPOR在low privacy regime下是严格sub-optimal的。

Proposition 5

4.4Simulation Analysis
为了补充上述的理论分析,我们对k-RR和k-RAPPOR进行仿真,改变alphabet size k,privacy level ε, number of users n和样本提取处的真实分布p. 在所有情况中,我们报告了超过10000组数值。我们在一个对应于上述理论中moderate-to-low privacy regime的范围内改变ε,观察到即使大ε也能够提供在un-noised logging下不可能的plausible deniability.
我们对比使用2种分布的距离l1,因为在多数应用中,我们想要estimate所有值,不是强调特别大的值(就像l2或更高的metric可能),也不是强调特别小的值(就像information theoretic metric可能)。distance metric的选择不会非常影响我们对于k-RR或k-RAPPOR的decoding strategy的结论也不会影响其regime的先后。
我们在这里主要关注于geometric distribution,因为定性的来说,展示了解码binomial和Zipf distribution的相同方法,并且它足够的倾斜,能够展现许多现实世界的数据库。它同样是在我们仿真中,k-RAPPOR和k-RR最关联的distribution.

4.4.1Decoding
我们首先考虑k-RR和k-RAPPOR解码机制选择的影响。我们发现,实践中对于k-RR和k-RAPPOR在skewed distribution下最好的decoder是projected decoder,它将pKRR和pRAPPOR投影到probability simplex Sk. 对于k-RR,我们比较了projected empirical decoder和normalized empirical decoder(它truncate负数并重新归一化) 和maximum likelihood decoder. 对于k-RAPPOR,我们比较了standard decoder, normalized decoder和projected decoder. Projected decoder无论对于k-RR还是k-RAPPOR,对于geometric distribution的一系列k和ε都显著优于其他decoder. 我们发现我们改变用户数从30到10^6,对于所有除了Dirichlet的所有distribution进行计算(这是最不倾斜的情况),这个结果都是成立的。对于Dirichlet distribution,normalized decoder对于k-RR和k-RAPPOR都是最佳的。因为projected decoder对于所有倾斜分布都是最佳的,我们在open-alphabet实验中使用它。

4.4.2k-RR vs k-RAPPOR
为了建造一个对k-RR和k-RAPPOR公平、经验化的比较,我们使用与上述选择decoder相同的方法。对于多数情况,最佳的decoder是上述的projected decoder.
注意到,在相对大的k和小的ε下,最好的k-RAPPOR decoder总是比最好的k-RR decoder要好。然而,k-RR稍微比k-RAPPOR好,在以下的所有情况下:k

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值