顶刊学者带你深度理解本地差分隐私【会议笔记】

写在前面的话

《2021网络安全西湖学术论坛线上报告》11.22上午场由Tianhao Wang报告,报告内容为《Analyzing Sensitive Data with Local Differential Privacy》。大家想看原视频可以去我的b站看。主要讲了三个方面,分别是数据效用,功能改进以及可信任模型。如下图:
在这里插入图片描述

背景知识

在这里插入图片描述
当前大数据时代下隐私保护的重要性不言而喻。
在这里插入图片描述
在这里插入图片描述

历史上保护隐私的方法是匿名法,但是攻击者可以通过别的数据集去比对,从而推测出敏感信息。
在这里插入图片描述
数据发布就存在这样的问题:发布的数据越多,展现的信息越多。
在这里插入图片描述
美国人口普查局就这样的问题用了差分隐私的技术,这也是差分隐私技术应用的最大规模的情况。
在这里插入图片描述
由于中心化差分隐私会存在不信任第三方的情况,所以苹果和谷歌采用本地差分隐私来完成数据分析,最有名的是苹果分析用户最常用的表情。

本地差分隐私存在可优化的部分

在这里插入图片描述
本地差分隐私也存在可优化的部分,分别是噪声化较重,功能简单以及潜在的隐私问题。作者从三个角度考虑,分别是准确性(也就是数据的效用),还有功能性的扩展以及更好的隐私保护。从基本的机制到实现相关的算法,最终整合成系统。

下面的应该是作者团队工作的参考文献,绿色部分最后一篇是解决数据效用问题,绿色部分第一篇是解决功能性扩展问题,剩下那个是提供更好的隐私保护。
在这里插入图片描述

数据效用

第一个存在优化的问题就是数据效用,目前本地差分隐私存在的方法主流就是随机响应。谷歌和苹果所用的方法分别是PAPPOR以及Hashing/Hadamard,这两个方法的特点分别是在编码部分优化和本地Hashing优化。具体的论文大家可以去看看。作者团队的工作和它们进行比较,相对于谷歌的方法作者团队的方法将误差降低了50%,相对于苹果则是降低了90%。
在这里插入图片描述

随机响应

问一个敏感问题,抛两次均匀质地的硬币,在最后可以通过无偏估计去除噪声。既保护了隐私又不影响统计数据。
在这里插入图片描述
下面是如何进行无偏估计,只要我们有回答yes的人数和p概率即可算出真正得病的人数。
在这里插入图片描述
上面的例子都是二进制数的情况,回答情况不是yes就是no。如何扩展到非二进制的情况,假设v是属于D范围数值序列,用户抛一枚偏币(偏币可以分为正面和其他情况),如果抛到正面就回答v的原值,若不是正面则回答出了v原值其他的值(下图这个w我不太清楚)。抛到正面的概率为p,其他情况的概率为(1-p)/(d-1)。也就是把原来反面的概率分为均匀的d-1等份。此时还是满足差分隐私,并且无偏估计的计算方法还是一样。(之前我一直以为随机响应只能用于二进制数值)。然而当d太大,也就是v从属的数值序列过多,p就会变得很小,也就是得到真正v的值的概率会变小。
在这里插入图片描述

怎么选择合适的方法?

在这里插入图片描述
在解决这个问题上,谷歌和苹果各有自己的解决办法。谷歌用UE的方法,将v的值映射为一个字符串,在字符串的每一位进行扰动。苹果用LH的方法,通过HASH函数将数据序列设置为0或者1,通过随机响应进行扰动。作者团队发现其中存在某些问题,这些方法的主要思想是对于每个客户端的值要么是0要么是1,其中的d也就是2.但是由于抛两次硬币的情况,隐私预算得分为两份。这个数据范围d被压缩到了2,但是这里面仍然存在冲突域,所以如何选择算法成为问题。
关于UE可以看下面这幅图:图源在这里插入图片描述
关于Local Hashing看下面这两幅图:
在这里插入图片描述
在这里插入图片描述

考虑偏币情况

谷歌和苹果的方法都将d压缩为了2,如果我们考虑其他情况呢?
在这里插入图片描述
作者团队想到的方法是基于偏币情况考虑的,不用考虑压缩d的情况。最终p的情况只由隐私预算决定。
在这里插入图片描述
作者团队将自己的方法和谷歌和苹果的方法进行对比。在原始的UE中,1和0都是受到同等程度的干扰。最优UE考虑0出现的频率会比1的更大,不同程度扰动0和1,最大化0保持原值0的概率。怎么做呢?对于1来说,反转的概率为1/2,对于0来说,反转的概率需要满足差分隐私,小概率反转。同样将隐私预算分为两份,与谷歌的方法进行比较,误差降低了50%。
在这里插入图片描述
LH方法是将信息压缩为1位数据,再扰动进行传输。这两步会导致信息损失,在压缩的过程中损失巨大,扰动的时候的损失依赖于隐私预算的设定。作者团队的想法是平衡这两步的损失,通过hash进多个分区。也就是偏币的思想,优化过的LH比普通的误差降低了90%。
在这里插入图片描述

总结

随机响应对于小范围的情况是最适用的,对于大范围的情况需要做优化。
在这里插入图片描述

功能扩展

作者团队考虑到数据库的场景,LDP用于用户的敏感数据并且生成加噪的数据。同时用户也有一些不敏感的数据,目的在于回答在交叉表中相应的查询。
在这里插入图片描述
这里面存在三个技术难点,分别是聚合问题,范围预测问题以及多维度问题。下图举例,我们需要确定可信任的边界,简单来说就是查询的条件就是我们扰动的目标。
在这里插入图片描述

挑战1:怎么聚合?

基本的方法就是直接计数,聚合后的数据是有误的,因为数据存在噪声。所以需要无偏估计,如果分组的大小是无偏的,那么估计的权重和也是无偏的。白话就是不能直接计数,得算无偏估计。
在这里插入图片描述

挑战2:范围预测?

基本方法是直方图,但是如果格子数量过多会导致噪声过多。于是采取分区的方法降低误差,分区用取对数的方法。
在这里插入图片描述

挑战3:多维度查询

使用树形结构来表示查询涉及到的维度,这样一来就可以把一个查询分解成好多个子查询,然后分别对每个子查询计算估计值,最后加起来就是查询结果。具体可以看这篇博客
在这里插入图片描述

实验

作者团队爬取数据做了相关实验。总结来说关于这三个挑战早就相关工作做了,作者团队只是应用进系统。前面关于偏币的思想比较有创新点。
在这里插入图片描述

更好的隐私保护

这里与CDP和LDP进行对比,作者团队采取了Shuffler的办法,增加了一个可信任的无冲突域的服务器。结合了差分隐私和密码学。
在这里插入图片描述
本地扰动后通过加密防止服务器读取数据,在服务器上用Shuffle(密码学的一种随即洗牌方法),最后给苹果进行无偏估计。
在这里插入图片描述
假设这个服务器不可信,可以采用同态加密的方法。
在这里插入图片描述
安全性加强,洗牌算法如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
准确性的提高。
在这里插入图片描述
在这里插入图片描述

结语

在这里插入图片描述

  • 11
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

粥粥粥少女的拧发条鸟

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值