顶刊学者带你深度理解本地差分隐私【会议笔记】

最新推荐文章于 2024-03-10 23:13:19 发布

粥粥粥少女的拧发条鸟

最新推荐文章于 2024-03-10 23:13:19 发布

阅读量2.5k

点赞数 12

分类专栏：差分隐私文章标签：网络安全概率论

本文链接：https://blog.csdn.net/qq_41691212/article/details/121472381

版权

差分隐私专栏收录该内容

38 篇文章 215 订阅

订阅专栏

Analyzing Sensitive Data with Local Differential Privacy

写在前面的话
背景知识
本地差分隐私存在可优化的部分
数据效用
功能扩展
更好的隐私保护
结语

写在前面的话

《2021网络安全西湖学术论坛线上报告》11.22上午场由Tianhao Wang报告，报告内容为《Analyzing Sensitive Data with Local Differential Privacy》。大家想看原视频可以去我的b站看。主要讲了三个方面，分别是数据效用，功能改进以及可信任模型。如下图：
在这里插入图片描述

背景知识

在这里插入图片描述
当前大数据时代下隐私保护的重要性不言而喻。

历史上保护隐私的方法是匿名法，但是攻击者可以通过别的数据集去比对，从而推测出敏感信息。
在这里插入图片描述
数据发布就存在这样的问题：发布的数据越多，展现的信息越多。

美国人口普查局就这样的问题用了差分隐私的技术，这也是差分隐私技术应用的最大规模的情况。

由于中心化差分隐私会存在不信任第三方的情况，所以苹果和谷歌采用本地差分隐私来完成数据分析，最有名的是苹果分析用户最常用的表情。

本地差分隐私存在可优化的部分

在这里插入图片描述
本地差分隐私也存在可优化的部分，分别是噪声化较重，功能简单以及潜在的隐私问题。作者从三个角度考虑，分别是准确性（也就是数据的效用），还有功能性的扩展以及更好的隐私保护。从基本的机制到实现相关的算法，最终整合成系统。

下面的应该是作者团队工作的参考文献，绿色部分最后一篇是解决数据效用问题，绿色部分第一篇是解决功能性扩展问题，剩下那个是提供更好的隐私保护。
在这里插入图片描述

数据效用

第一个存在优化的问题就是数据效用，目前本地差分隐私存在的方法主流就是随机响应。谷歌和苹果所用的方法分别是PAPPOR以及Hashing/Hadamard，这两个方法的特点分别是在编码部分优化和本地Hashing优化。具体的论文大家可以去看看。作者团队的工作和它们进行比较，相对于谷歌的方法作者团队的方法将误差降低了50%，相对于苹果则是降低了90%。
在这里插入图片描述

随机响应

问一个敏感问题，抛两次均匀质地的硬币，在最后可以通过无偏估计去除噪声。既保护了隐私又不影响统计数据。
在这里插入图片描述
下面是如何进行无偏估计，只要我们有回答yes的人数和p概率即可算出真正得病的人数。

上面的例子都是二进制数的情况，回答情况不是yes就是no。如何扩展到非二进制的情况，假设v是属于D范围数值序列，用户抛一枚偏币（偏币可以分为正面和其他情况），如果抛到正面就回答v的原值，若不是正面则回答出了v原值其他的值（下图这个w我不太清楚）。抛到正面的概率为p，其他情况的概率为(1-p)/(d-1)。也就是把原来反面的概率分为均匀的d-1等份。此时还是满足差分隐私，并且无偏估计的计算方法还是一样。（之前我一直以为随机响应只能用于二进制数值）。然而当d太大，也就是v从属的数值序列过多，p就会变得很小，也就是得到真正v的值的概率会变小。
在这里插入图片描述

怎么选择合适的方法？

在这里插入图片描述
在解决这个问题上，谷歌和苹果各有自己的解决办法。谷歌用UE的方法，将v的值映射为一个字符串，在字符串的每一位进行扰动。苹果用LH的方法，通过HASH函数将数据序列设置为0或者1，通过随机响应进行扰动。作者团队发现其中存在某些问题，这些方法的主要思想是对于每个客户端的值要么是0要么是1，其中的d也就是2.但是由于抛两次硬币的情况，隐私预算得分为两份。这个数据范围d被压缩到了2，但是这里面仍然存在冲突域，所以如何选择算法成为问题。
关于UE可以看下面这幅图：图源在这里插入图片描述
关于Local Hashing看下面这两幅图：

考虑偏币情况

谷歌和苹果的方法都将d压缩为了2，如果我们考虑其他情况呢？
在这里插入图片描述
作者团队想到的方法是基于偏币情况考虑的，不用考虑压缩d的情况。最终p的情况只由隐私预算决定。

作者团队将自己的方法和谷歌和苹果的方法进行对比。在原始的UE中，1和0都是受到同等程度的干扰。最优UE考虑0出现的频率会比1的更大，不同程度扰动0和1，最大化0保持原值0的概率。怎么做呢？对于1来说，反转的概率为1/2，对于0来说，反转的概率需要满足差分隐私，小概率反转。同样将隐私预算分为两份，与谷歌的方法进行比较，误差降低了50%。
在这里插入图片描述
LH方法是将信息压缩为1位数据，再扰动进行传输。这两步会导致信息损失，在压缩的过程中损失巨大，扰动的时候的损失依赖于隐私预算的设定。作者团队的想法是平衡这两步的损失，通过hash进多个分区。也就是偏币的思想，优化过的LH比普通的误差降低了90%。
在这里插入图片描述

总结

随机响应对于小范围的情况是最适用的，对于大范围的情况需要做优化。
在这里插入图片描述

功能扩展

作者团队考虑到数据库的场景，LDP用于用户的敏感数据并且生成加噪的数据。同时用户也有一些不敏感的数据，目的在于回答在交叉表中相应的查询。
在这里插入图片描述
这里面存在三个技术难点，分别是聚合问题，范围预测问题以及多维度问题。下图举例，我们需要确定可信任的边界，简单来说就是查询的条件就是我们扰动的目标。

挑战1：怎么聚合？

基本的方法就是直接计数，聚合后的数据是有误的，因为数据存在噪声。所以需要无偏估计，如果分组的大小是无偏的，那么估计的权重和也是无偏的。白话就是不能直接计数，得算无偏估计。
在这里插入图片描述

挑战2：范围预测？

基本方法是直方图，但是如果格子数量过多会导致噪声过多。于是采取分区的方法降低误差，分区用取对数的方法。
在这里插入图片描述

挑战3：多维度查询

使用树形结构来表示查询涉及到的维度，这样一来就可以把一个查询分解成好多个子查询，然后分别对每个子查询计算估计值，最后加起来就是查询结果。具体可以看这篇博客。
在这里插入图片描述

实验

作者团队爬取数据做了相关实验。总结来说关于这三个挑战早就相关工作做了，作者团队只是应用进系统。前面关于偏币的思想比较有创新点。
在这里插入图片描述

更好的隐私保护

这里与CDP和LDP进行对比，作者团队采取了Shuffler的办法，增加了一个可信任的无冲突域的服务器。结合了差分隐私和密码学。
在这里插入图片描述
本地扰动后通过加密防止服务器读取数据，在服务器上用Shuffle（密码学的一种随即洗牌方法），最后给苹果进行无偏估计。

假设这个服务器不可信，可以采用同态加密的方法。

安全性加强，洗牌算法如下：
在这里插入图片描述

在这里插入图片描述
准确性的提高。

结语

在这里插入图片描述

粥粥粥少女的拧发条鸟

关注

12
点赞
踩
29

收藏

觉得还不错? 一键收藏
打赏
0
评论
顶刊学者带你深度理解本地差分隐私【会议笔记】

Analyzing Sensitive Data with Local Differential Privacy写在前面的话背景知识本地差分隐私存在可优化的部分数据效用随机响应怎么选择合适的方法？考虑偏币情况总结功能扩展挑战1：怎么聚合？挑战2：范围预测？挑战3：多维度查询实验更好的隐私保护结语写在前面的话《2021网络安全西湖学术论坛线上报告》11.22上午场由Tianhao Wang报告，报告内容为《Analyzing Sensitive Data with Local Differential P
复制链接

扫一扫