差分隐私-整理-知乎

1.国内有哪些不错的研究差分隐私的团队?
纯dp理论的话可能我知道的只有复旦的李宁辉那边,不过他好像现在在普渡了。如果不是差分理论,结合应用的话,那信工所李凤华老师;浙大任奎老师;浙大那边好像还有一个很厉害的组18年发了dp的ccs,但是我忘了叫啥了
不过现在机器学习的组里面也有很多结合dp的,也可以在机器学习的组里看一看,不过机器学习和我方向不一致了,我就不太了解了

作者:可以不用真名吗
链接:https://www.zhihu.com/question/336650871/answer/760549000
来源:知乎

2.DP的思路
假如我现在想公布一个数据集,给大众做数据分析,但我又想保护里面每一个个体的信息不泄露,那么一种可行的手段就是给这个数据集注入一些噪音或者说扰动。当然这个扰动不能随便加,否则数据就丧失了可用性。然而扰动也不能太小,否则就起不到保护隐私的作用了。C. Dwork在他的论文中提出了一个数学上的描述,来测量一个扰动机制究竟能够带来多大程度上的保密性。简单来说就是,你给我一个数据集A,假如我有一个扰动机制,可以让我先对A做一个扰动得到A’,再从原数据集A里随意拿掉一行记录得到B,对这个数据集B做扰动得到B‘,如果得到的A’和B’几乎是一模一样的(这个一模一样有数学上的定义),那么我就认为这个扰动机制可以保护隐私。因为在这个扰动机制下,A里面任何单独一行数据存在或不存在都几乎不影响结果。具体的数学公式可以在C. Dwork的论文(http://www.msrwaypoint.com/pubs/64346/dwork.pdf)里找到。

作者:Kyon
链接:https://www.zhihu.com/question/47492648/answer/106315974
来源:知乎

3. 差分隐私的弱点
差分隐私的弱点其实很明显:由于对于背景知识的假设过于强,需要在查询结果中加入大量的随机化,导致数据的可用性急剧下降。特别对于那些复杂的查询,有时候随机化结果几乎掩盖了真实结果。这也是导致目前应用不多的一个原因。
但差分隐私作为一个非常漂亮的数学工具,为隐私研究指明了一个发展的方向。在早期,人们很难证明我的方法保护了隐私,更无法证明究竟保护了多少隐私。现在差分隐私用严格的数学证明告诉人们,只要你按照我的做,我就保证你的隐私不会泄露。
更有意思的是,Dwork团队2015年提出应用差分隐私的想法可以解决机器学习的over-fitting问题,一步从隐私界跨到了AI界,开始抢机器学习的饭碗了。她们的论文发表在了2015年的Science上,有志于抢AI饭碗的同学可以瞄一下。
The reusable holdout: Preserving validity in adaptive data analysis
最后,放一篇我在2017年写的有关差分隐私的前世今生,很学术,有兴趣研究这个方向的同学可以读读。
Differentially Private Data Publishing and Analysis: a Survey

作者:Nemo
链接:https://www.zhihu.com/question/47492648/answer/194047182
来源:知乎

4.我不认为DP是一种加密技术。
虽然都是随机化,但区别在于随机化后密文的分布。对于加密,希望以均匀分布把明文映射到密文空间,也就是说明文加密后,以完全相同的概率有可能是密文空间中的任何一个密文,是均匀分布,这也是香农对perfect security的定义。但对于DP,随机化后的结果不可能是均匀分布,那样发布的结果就完全没意义了,所以它是Laplace分布或者高斯分布,也就是说虽然随机化了,但趋近真实值的概率高,而远离真实值的概率小。加密是要彻底破坏密文的可用性,它的可用性必须通过解密出明文来实现。但DP没有逆过程,它必须在一定程度上保证随机化后结果的可用性。

作者:degor
链接:https://www.zhihu.com/question/47492648/answer/194169150
来源:知乎

5.各个 CS PhD 方向都有哪些令人头疼的地方?
目前 dp加上deep learning基本没啥好的结果 一方面现有的文章基本没啥意思所以搞dp基本上不太认同 另一方面 high dimension和overparameterize这两个在dp中基本上就没有办法。所以dp加上deep learning现在基本无法上icml nips aistats安全的顶会也很少 据我所知就sp 19有一篇 而且他的卖点还不是deep learning这一块。想做这问题可以 但是想出顶会paper要三思 目前dp还是在做tcs的手里
dp gan的目前最好的rachel cumming组做的 这是正儿八经拿到nist的 winner的 其他的paper我觉得都是扯淡

作者:Unknown
链接:https://www.zhihu.com/question/326331162/answer/719014742
来源:知乎

6.苹果使用的是local DP
文献:https://www.apple.com/privacy/docs/Differential_Privacy_Overview.pdf
苹果希望使用收集到的用户数据用于改善服务,例如:哪些新词正在流行?什么网站可能会影响电池寿命?哪些表情符是被选择最多的?而面临的问题则是用于被收集来回答这些问题的用户数据是个性化的,会涉及到隐私问题。
苹果使用的是local DP,即在数据离开用户设备前就对数据进行操作使得苹果服务器接收到数据时就已经无法恢复出用户的原始真实数据了。想法源于噪声可以扰动用户个人的数据,但如果有许多人提交相同的数据,那么这些添加到用户个人数据的噪声在统计上就可以被平均,从而苹果可以得到有意义的统计数据。同时在上传数据时,设备标识符被移除并且数据通过加密信道传输。苹果读取数据阶段使用这些差分后的数据,并且要移除IP地址等相关信息。最后在数据聚合阶段,用户数据被用来计算相关的统计问题并且将统计结果共享给相应的苹果团队。读取和聚合数据阶段都在受限访问环境中,因此用户个人数据也不能被苹果员工广泛访问。
苹果限定了每个用户的隐私预算来限制单个用户数据的贡献量。原因在于防止经过对单个用户大量的数据观测推断出用户活动,尽管苹果未将收集的信息与用户标识符关联。苹果公司使用local DP来保护一段时间内用户的活动,同时用其提高智能性和可用性,如:快速键入建议、表情符建议、查找提示、Safari能量消耗域、Safari自动播放意图检测(macOS High Sierra)、Safari崩溃域(iOS 11)、Health Type Usage(iOS 10.2)。苹果对收集到的数据最多保留三个月,并且不会保存标识符和IP地址。以下是对用于改善不同服务收集的用户数据的具体隐私预算:查找提示—隐私预算4,一天两次;表情符—隐私预算4,一天一次;快速键入—隐私预算8,一天两次;health type—隐私预算2,一天一次;Safari能量消耗域以及崩溃域—隐私预算4,一天两次;Safari自动播放意图检测—隐私预算8,一天两次。
苹果定义了两种传输DP的用户数据的结构:Count Mean Sketch和Hadamard Count Mean Sketch。Count Mean Sketch中使用一系列哈希函数将数据元素映射到哈希矩阵的不同行的对应列中,而对于每个哈希后得到向量值的每个坐标,有1/(1+exp(ε/2))的概率被翻转。在将用户个人数据传输给苹果时,会随机选择哈希矩阵中的一行而非上传整个矩阵。当计算统计结果时,苹果整合所有用户的上传的哈希行并且计算每个数据元素在这些哈希行中的平均值。
更具体的文献:Learning with Privacy at Scale - Apple
作者:大头菜
链接:https://zhuanlan.zhihu.com/p/66742423
来源:知乎

  • 4
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值