面向数据发布和分析的差分隐私保护
读这篇综述的随记
- 基于k-匿名或者划分的隐私保护方法,只适应特定背景知识下的攻击而存在严重的局限性.差分隐私作为一种新出现的隐私保护框架,能够防止攻击者拥有任意背景知识下的攻击并提供有力的保护。
- 如何发布和分析而不泄露隐私信息是隐私保护技术的主要目的。
- k-匿名和划分的隐私保护方法,尽管这些方法可以保护数据的更多细节,但是都需要特殊的攻击假设和背景知识。
- 差分隐私已经成为一种新的隐私保护模型,该模型不关心攻击者拥有多少背景知识,通过向查询或者分析结果中添加适当噪声来达到隐私保护效果
- 差分隐私保护技术考虑两个方面的问题:①如何保证设计的算法满足差分隐私,以确保数据隐私不被泄露 ②如何减少噪音带来的误差,以提高数据的可用性
- 差分隐私保护技术在数据库领域主要 集中在 “数 据 发布”、“数据挖掘”和“机 器 学 习”3大 领 域
- 差分隐私保护技术被公认为是比较严格和强健的保护模型,基本思想就是:对原始数据、对原始数据的转换或者是对统计结果添加噪声来达到隐私保护效果。 该保护方法:确保在某一个数据集中插入或者删除一条记录的操作不会影响任何计算的输出结果
差分隐私的一系列定义:
拉普拉斯机制
关注到nozari那一篇文章当中,对数据进行添加噪声即可
Δf/ε 是拉普拉斯分布里面的参数
指数机制
差分隐私的组合特性:串并行机制
差分隐私保护方法的性能度量
满足差分隐私的保护算法需要在保护隐私的同时,又要兼顾保护后数据的可用性以及隐私预算ε的分配策略是否合理.通常包括3个方面对隐私保护算法进行度量
(1)算法误差 – 应用型误差度量方法包括:
- 相对误差
- 绝对误差
- 误差的方差
- 欧式距离
(2)算法性能:一般利用时间复杂度与渐近噪音误差边界对算法的性能进行评估.
(3)ε的合理分配 – 隐私预算 ε 代表着数据隐私保护程度.一旦耗 尽ε,将破坏差分隐私,算法本身也就失去了意义。因此,合理的预算分配策略要尽可能使ε的生命周期持续长一些.常用的分配策略包括线性分配、均匀分配、指数分配、自适用性分配以及混合策略分配等。
主要研究方向
差分隐私技术的研究方向是由实际应用中不同的隐私需求而决定的。
基于差分隐私的数据保护框架
- 交互式的差分隐私保护框架 (在线查询框架)
- 非交互式的差分隐私保护框架(离线发布框架)
交互式框架
解释:当数据分析 者 通 过 查 询 接 口 提 交 查 询 Q 时,数据拥有者会根据查询需求,设计满足差分隐私的查询算法,经过差分隐私算法过滤后,把结果 O′返 回给用户。分析者提交的查询通常包含一定的语义约束,使得返回结果的可用性较低。.数 据 拥 有 者 常采用后 置 处 理技 术 对 噪 音 结果进行求精处理.由于交互式框架只允许数据分析者通过查询接口提交查询,查询数目决定着该框架的误差和性能,若提交查询的数目超过某个上界,隐私预算ε会被耗尽,该框架则不能满足差分隐私.该框架所支 持 的 查 询 通 常 包 括 聚 集 查 询、批 量 查询以及提交的数据挖掘任务等.
非交互式框架
数据拥有者通过差分隐私发布算法来发布数据库的相关统计信息。数据分析者根据发布数据库提交查询或者挖掘任务Q以及得到噪音结果O′。非交互式发布框架下的主要研究是如何设计高效的发布算法,该类算法既满足差分隐私,又具有高的可用性。数据拥有者采用数据压缩、数据转换与采样过滤等技术对原始数据进行处理以达到缩减发布误差和查询误差的目的。 在数据发布过程中,合理的隐私预算分配策略也是保证差分隐私成立的关键。
差分隐私的研究均是基于上述两种框架进行展开。
发布技术的分类与性能评估
根据非交互式保护框架,数据发布方法可以分为两类:
第一类
第二类
总结:第一类是直接添加噪声,第二类是先将原始数据进行转换或者压缩,再对转换后的数据添加噪声。
基于两种发布策略,已有的发布技术主要分为两类:(1)以 直 方 图 为 发 布 标 准 的 方 法;(2)基于划分的发布方法.
基于差分隐私的直方图发布方法:
直方图:等宽直方图、V-优化直方图
例子:等宽直方图:已 知 Age 属性取值后 HIV+的分布情况
上面是使用的是策略1的直方图发布方法,通常直接为每个桶的计数添加拉普拉斯噪音,进而达到扰动真实计数的效果.由于连续的桶是相互独立的,在原始数据集中添加或者删除一条记录,最多影响直方图中 Δf个桶的计数情况。
为了给数据添加相应的噪声,很多学者会研究一系列相应的方法
…
总结与展望
差分隐私保护还是一个新的研究领域,很多挑战性的问题还有待解决。
1、动态环境下的数据发布
上述基于策略1和2的发布方法基本是针对静态数据集发布,没有考虑数据动态变化时带来的挑战,但是我们实际应用中的数据基本都是动态变化的,随时间进行演化。
动态数据举例:疾病应急中心病毒携带者的数据、商品销售信息
动态数据的表现形式:数据流形式、数据以更新的形式出现
2、差分隐私下图数据的发布
目前的发布工作主要着手与一维或者是多维的单个关系表上,而实际的应用中存在大量的复杂稀疏图数据:社交网络、路网
有的文献基于边-差分隐私提出了几种支持triangle查询、k-stars查 询 的 图 发 布 方 法,但是这种查询的敏感性都非常大,有可能导致查询结果的噪声误差很大,进而导致发布结果的可用性比较低。 基于边-差分隐私提出的两种迭代式发布图数据的方法只适用于密集型的图数据,但是实际上现实的图数据大多是稀疏的。因此,为了防止图数据本身的稀疏性导致发布数据的低可用性,我们认为,可以采用邻接矩阵与双聚类相结合的方法来发布图数据.利用双聚类技术挖掘邻接矩阵中的所有满足阈值条件的密集区域,然后利用指数机制与拉普拉斯机制对密集区域中的所包含的边数进行扰动**,使其真实计数不被披露.然而,如何迭代地挖掘邻接矩阵中的密集区域是个很大的挑战
3、分布式差分隐私保护
由于分布式环境下各个站点相互独立、数据异构的特点,通信、数据协同共享以及任务协同分析等操作会非常频繁.而这些操作,无意间会对隐私信息造成威胁。目前已经有文献结合差分隐私保护技术与加密技术来解决分布式环境下的协同聚集问题(例如多家医院把病人的医疗信息放到云端),这可以防止不可信的云服务提供者。
可能出现的问题:1、已有的工作都是假设所有的站点都是可信的,但是在实际应用中,一些数据提供者可能与云服务端相互串通,导致密钥泄露以及聚集信息被窃取。在此情况下,如何利用差分隐私和加密技术防止聚集信息泄露是个迫切需要解决的问题。2、分布式环境下存在的数据发掘问题,在深度挖掘环境下,实现满足差分隐私保护的数据挖掘也是一个重要问题。
4、差分隐私下的大数据分析
社交网络、医疗信息等都涉及大数据,
虽然通过数据挖掘和机器学习技术对数据进行聚类、分割、孤立点分析以及回归分析等,可以抽取出有价值的知识以及数据内部的规律.然而,大数据分析的最大障碍是数据隐私问题。隐私不可怕,可怕的是用户的行为可以通过大数据分析被预测出来。我们可以根据大数据的流式特点,利用采样技术、直方图以及概要技术,结合差分隐私可以做大数据的回归分析、模式挖掘、个性化推荐以及概要数据发布等研究。
5、差分隐私下其他研究点
以上就是对差分隐私方向的一些简单介绍,差分隐私很著名的一本书比较推荐
想要深入了解差分隐私,可以访问 差分隐私专栏,这里有你想要的一切