2018_软件学报_本地化差分隐私研究综述

2018_软件学报_本地化差分隐私研究综述

2023-08-16
学习目的:
(1)学习综述写作形式
(2)了解本地化差分隐私涉及的内容
(3)For a literature survey of a new field. DP is not a new field but for me it is because I am newcomer.
文章简介:
Category:A survey paper.
Context:Differential Privacy (Book). The content involved includes frequency statistics, disturbance mechanisms, etc.
Correctness:The assumptions appear is valid.
Clarity:I have no idea.

0 知识补充

k-匿名

  • 首先进行数据脱敏(将敏感数据隐藏、变形)
  • 对数据进行泛化(泛化后会产生多条相同记录,最少k条,组成相等集)
  • 当数据集中的任何一条记录受到攻击,始终有k-1条记录的特征与这条数据相同,使攻击者无法区分。

1 基础知识

在中心化差分隐私保护技术提出的数据采集框架的基础上提出了本地化差分隐私保护技术,从本地开始对数据进行保护,使不可信的第三方无法拿到原始数据。

1.1 本地化差分隐私

用户独立的在本地对个体数据进行隐私化处理,在理论的角度保证算法满足ε-本地化差分隐私。
LDP定义

1.2 扰动机制

对敏感数据进行扰动,使数据具有一定的随机性。

1.2.1 随机响应技术
  • 扰动性统计:通过一些方法,比如抛硬币,增加用户回答的不确定性,从而对敏感回答进行隐藏。
  • 校正:扰动性统计得到的统计比例并不是真实比例的无偏估计,需要对结果进行校正。根据扰动行统计的方法选取合适的校正方法。
1.2.2 离散型数据的随机响应
  • RAPPOR和S-Hist等。
  • k-RR和O-RR等。
1.2.3 连续型数据的随机响应

将连续型数据离散化,再利用离散型数据下的随机响应方法。MeanEst和Harmony-mean等。

1.3 本地化与中心化差分隐私的异同点

  1. 组合特性:中心化差分隐私定义在临近数据集上,本地化差分隐私则是定义在其中的两条记录上。
  2. 可信与不可信第三方:中心化差分隐私中第三方数据收集者是可信的,在本地化差分隐私中第三方数据收集者是不可信的。
  3. 噪声机制:本地化差分隐私中,由于给第三方收集者发送的是扰动后的数据,所以不存在全局敏感性的概念。
  4. 应用场景:本地化差分隐私可以让用户根据自身需求,进行更加个性化的隐私设置。

CDP和LDP异同点

2 基于本地化差分隐私的数据保护框架

根据输出结果之间的关联性将基于本地化差分隐私的数据保护框架分为交互式框架非交互式框架

  • 红绿色盲遗传病的结果具有家族关联关系,因此用交互式框架。
  • 不同用户之间的购物清单数据之间不存在关联关系,因此用非交互式框架。
    基于LDP的数据保护框架

3 主要研究方向

LDP主要用于统计数据库领域。
LDP的研究方向

4 本地化差分隐私方法的对比与分析

根据查询类型不同,主要分为两类,频数统计查询和均值统计查询。

4.1 基于本地化差分隐私的频数统计

针对离散型数据,查询某些信息的数量。如果把表3的信息发布可能会导致隐私泄漏,但是如果由表2制作表3时,就加入一些随机性,比如Tom以40%的概率提交HIV,以10%的概率分别提交其他六种疾病,就可以实现对敏感信息的保护。
敏感信息举例

4.1.1 单值频数统计

指每个用户只发送一个变量取之的情形。
代表方法:RAPPOR方法
RAPPOR方法
根据方法的缺点进行改进,对比了不同方法的优缺点。
对比分析

4.1.2 多值频数统计

指每个用户发送多个变量取值的情形,需要考虑隐私预算的分割问题。
对比分析
对比分析

4.2 基于本地化差分隐私的均值统计

主要思想是对个体值天价正向和负向的噪声,最终通过聚合大量的扰动结果以抵消其中的正负向噪声,从而使统计结果满足一定的可用性要求。
对比分析

4.3 基于信息压缩和扭曲的扰动机制

  • 基于压缩输入域的扰动机制(Compression)
  • 基于信息扭曲的扰动机制(Distortion)
    对比分析

4.4 本地化差分隐私技术的试验特性分析

4.4.1 隐私预算对数据可用性的影响

当给定较少的隐私预算,如ε=0.1时,统计结果偏离真实值的程度较大,当给定较多的隐私预算,如ε=2.0时,统计结果比较接近真实值。
实验分析
实验分析
实验分析

4.4.2 数据量对数据可用性的影响

在给定相同的隐私预算下,数据量较小,偏差较大,数据量较大,统计结果更接近真实值。
实验分析
实验分析

5 未来研究挑战

5.1 复杂数据类型的本地化差分隐私保护

除了目前已研究的关系数据和集值数据,还有待研究的键值对数据、图数据等等。

5.2 不同查询和分析任务的本地化差分隐私保护

其他分析任务包括线性回归、Logistic回归、SVM分类等等。

5.3 基于本地化差分隐私的高维数据发布

高维数据带来数据规模大、信噪比降低和通讯代价增加等问题,需要考虑这些方面和数据可用性之间的平衡关系。

6 结束语

综述了本地化差分隐私保护技术的研究现状,总结该技术在频数统计和均值统计中的应用,冰进行实验特性分析。

对文章粗略的总结,主要把自己觉得重要的方便回顾理解的东西记下来了,其中一些细节自己也不是很清楚,一些方法的运行流程不是很清晰,慢慢学吧!小艾加油!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值