差分隐私：原理，应用与展望

最新推荐文章于 2024-05-14 16:47:42 发布

不爱搞学术的蜡笔小新

最新推荐文章于 2024-05-14 16:47:42 发布

阅读量7.7k

点赞数 7

分类专栏：差分隐私文章标签：大数据安全

本文链接：https://blog.csdn.net/A13526_/article/details/124062841

版权

差分隐私专栏收录该内容

13 篇文章 18 订阅

订阅专栏

隐私保护的挑战

例子一

在这里插入图片描述

一个简单的做法：将数据匿名化
这样的做法看似合理，但其实并不能真的保护隐私
原因：匿名化之后的数据往往还保留着许多可能泄漏隐私的信息
可能在别的地方得到一些数据以后，数据进行匹配以后，会反推出用户信息，从而破坏用户隐私

比如：

九十年代中期，美国马萨诸塞州一政府部门就曾遭受这样的攻击
他们发布了匿名化的员工医疗记录用于研究
后果：当时的州长的医疗记录被泄漏
后续研究表明，63%的美国人口有着唯一的{出生日期、性别、邮编}组合，这说明有着63%的人可能面临着暴露身份

既然匿名化容易被攻击，我们是否可以考虑不发布详细的元组，转而发布粗粒度的统计数据？
答案：统计数据也有可能泄漏隐私
在这里插入图片描述

数据重构攻击

这种重构结果有多准确呢？

数据重构攻击的实际效果

美国普查局用他们2010年所发布的一组统计数据试验了数据重构攻击
结果表明，他们能重构17%美国人口的数据
为此，他们宣布将于2020年的统计数据发布中使用差分隐私

机器学习模型发布

在这里插入图片描述
机器学习模型也可能泄露隐私 原因？

机器学习模型往往会不经意地“记住”源数据中的元组
因此，模型在那些元组上的表现可能跟在其他元组上的表现会不一样
类比与：学生考试时，碰上之前做过的题和碰上没做过的题，反应是不一样的

对机器学习模型的隐私攻击

在这里插入图片描述
小总结：

总而言之，攻击者可以有很多种不同方式来对隐私数据进行攻击
为防范这些可能的攻击，我们需要有一个严谨的框架来对数据隐私进行保护
差分隐私正是这样的一个理论框架

差分隐私：定义及原理

差分隐私的直观原理

在这里插入图片描述

差分隐私要求任何被发布的信息都应当与上图中的信息0类似： 应当避免让攻击者分辨出任何具体的个人数据
为此，差分隐私要求被发布的信息需经一个随机算法所处理，且该随机算法会对信息做一些扰动

差分隐私的定义

在这里插入图片描述

差分隐私定义的图示

在这里插入图片描述

攻击者并不能观察到，某一个元素对结果输出的影响，从而保证了用户的隐私

差分隐私算法

如何设计满足差分隐私的算法

在这里插入图片描述

拉普拉斯机制

在这里插入图片描述

因为对个体依赖程度变为3了

敏感度

在这里插入图片描述

其他噪声机制

在这里插入图片描述

随机化回答

在这里插入图片描述

采用这一类随机方式进行估算的话，不会对原来真实的结果的估算产生重大影响吗？

从随机化回答获得统计信息

在这里插入图片描述

随机化回答：总结

在这里插入图片描述
只能推出有多少个是yes，有多少个是no，只能知道yes和no的比例，而不是知道具体谁投了yes，谁投了no

拉普拉斯机制和随机化回答是两个经典的差分隐私算法，还有许多其他不同的算法，一般而言，不同的应用场景、不同的数据集、不同的输出往往需要不同的算法设计，如何根据应用来设计差分隐私方法是不少领域的学者都感兴趣的问题

差分隐私：应用

差分隐私数据库

在这里插入图片描述
技术难点

差分隐私机器学习

在这里插入图片描述
TensorFlow Privacy 的基本原理

在这里插入图片描述

差分隐私数据采集

在这里插入图片描述
技术难点

差分隐私数据合成

在这里插入图片描述
技术难点

前景展望

差分隐私的新方向

联邦学习
与多方安全计算的结合

总结

差分隐私是近年来受到较多关注的一个隐私保护模型
有着较强的理论保证，并在不少场景中得到了应用
但仍有许多有待解决的问题

不爱搞学术的蜡笔小新

关注

7
点赞
踩
40

收藏

觉得还不错? 一键收藏
0
评论
差分隐私：原理，应用与展望

隐私保护的挑战例子一一个简单的做法：将数据匿名化这样的做法看似合理，但其实并不能真的保护隐私原因：匿名化之后的数据往往还保留着许多可能泄漏隐私的信息可能在别的地方得到一些数据以后，数据进行匹配以后，会反推出用户信息，从而破坏用户隐私比如：九十年代中期，美国马萨诸塞州一政府部门就曾遭受这样的攻击他们发布了匿名化的员工医疗记录用于研究后果：当时的州长的医疗记录被泄漏后续研究表明，63%的美国人口有着唯一的{出生日期、性别、邮编}组合，这说明有着63%的人可能面临着暴露身份既然
复制链接

扫一扫