中心化、本地化差分隐私基础知识

差分隐私是一种确保个人数据隐私的技术,通过在数据查询结果中添加噪声来防止攻击者推断个体信息。文章详细介绍了中心化和本地化差分隐私,包括ϵ-差分隐私、拉普拉斯和指数机制,以及随机响应技术。中心化差分隐私通过数据集中添加噪声保护隐私,而本地化差分隐私则让用户在本地对数据进行扰动后再发送,降低了对中央数据收集者的信任需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

差分隐私的背景和概念

由于互联网的发展,包括智能手机在内的各种终端数量剧烈的增长,使得各种公司和组织,以及政府需要收集和分析巨量的数据。在这个过程中,关于个人信息的隐私保护成为了一个大的问题。一些在大数据环境下的隐私保护方案,包括k-匿名技术,在需要发布用户数据的情况下,k-匿名可以较为有效地保护个人的隐私不被泄露。因为其可以保证具有相同敏感属性的等价类中,至少具有K个记录,这样攻击者便无法分辨某一用户具体是哪一条记录。然而,k-匿名还是无法阻止一些攻击,无法提供数学可证明的安全性。在同质攻击的场景下,由于k条记录中敏感值相同,无法阻止攻击者获取某用户的隐私信息。或者在攻击者已知某用户的一些背景的信息情况下,则其可以推断某用户的敏感信息。

而在差分隐私的场景下,任何一条信息的增减,都不会影响最终的查询结果,因此,对于攻击者具备的知识并不关心。差分隐私可以提供一种可证明的量化方法,来保护个人的隐私数据,同时向数据发布和分析者提供限制条件下相对准确的数据。一方面,差分隐私可以按照隐私预算向用户提供隐私保护性,但是根据差分隐私算法可证明的性质,又可以提供对应的数据可用性,这都是形式化可证明的。

差分隐私技术可以分为两类,在传统应用场景下,需要一个数据中心来收集和发布分析数据,称为中心化的差分隐私,而如果在本地处理隐私数据,则称为本地化的差分隐私。对于本地化的差分隐私,由于近年来各种终端设备的疯狂增长,和这些设备算力的提高,本地差分隐私成为了一个热门的方向。这也获得了一些实际的应用,例如在苹果设备和谷歌的浏览器上。

中心化差分隐私

理解差分隐私的一个点在于理解,差分隐私是通过向查询结果中添加一个随机噪声来保护隐私的,这个噪声是一个随机变量,服从某种分布。 这样子,攻击者只有在很多次查询数据的情况下,通过统计随机变量的分布,来推断隐私信息,但是实际上攻击者无法不受限制地去查询信息。实际上,查询信息需要消耗隐私预算,通过有限的隐私预算来阻止攻击者通过查询结果的概率分布来推断信息。
在这里插入图片描述

在不使用差分隐私的情况下,攻击者如何获取隐私信息呢?对于某一个数据集,攻击者先查询其统计量,例如未婚人群的个数,然后再查询某人的数据加入到这个数据集之后的统计量,此时,可以根据统计量的变化情况,来准确推断这个人的敏感信息。因此,可以看出,差分隐私中的“差分”,即为两个相邻的数据集的意味,而差分隐私就是要使得攻击者无法分辨这两个数据集,从而保护这两个数据之间的“差”的私密性,即某用户的数据。

下面先看传统的中心化差分隐私,在这种情况下,中心化的数据收集者拥有一个集中管理的数据集,然后发布这个数据集的统计量,他需要完成其中的隐私保护工作。

ϵ \epsilon ϵ-差分隐私

x x x x ′ x' x是两个相邻的数据集,即它们之间差了一条数据,设 M : x ↦ y \mathcal{M}:x\mapsto y M:xy是随机化的机制,即查询结果为 y = M ( x ) y=\mathcal{M}(x) y=M(x),那么可以这样子表示两个查询结果之间的距离:

D ∞ = max ⁡ y ln ⁡ P r ( M ( x ) = y ) P r ( M ( x ′ ) = y ) (1) D_{\infty}=\max\limits_{y}\ln\frac{Pr(\mathcal{M}(x)=y)}{Pr(\mathcal{M}(x')=y)} \tag{1} D=ymaxlnPr(M(x)=y)Pr(M(x)=y)(1)

这相当于对于某个输出,两个相邻数据集的查询结果为这个输出的最大概率差,实际上,这个式子可以认为是来源于KL散度的定义。如果令 D ∞ < ϵ D_{\infty}<\epsilon D<ϵ,再将上式通过指数运算消去,对于任意的输出集合 S S S,则可以得到 ϵ \epsilon ϵ-隐私保护的定义:
P r ( M ( x ) ∈ S ) < e ϵ P r ( M ( x ′ ) ∈ S ) (2) Pr(\mathcal{M}(x)\in S)<e^{\epsilon}Pr(\mathcal{M}(x')\in S) \tag{2} Pr(M(x)S)<eϵPr(M(x)S)(2)

这样子就可以更为方便地理解隐私保护的定义,对于松弛版本的 ϵ \epsilon ϵ隐私保护,其定义为:
P r ( M ( x ) ∈ S ) < e ϵ P r ( M ( x ′ ) ∈ S ) − δ (3) Pr(\mathcal{M}(x)\in S)<e^{\epsilon}Pr(\mathcal{M}(x')\in S)-\delta \tag{3} Pr(M(x)S)<eϵPr(M(x)S)δ(3)

同样可以通过变换理解为式(1)的情况:

D ∞ = max ⁡ y ln ⁡ P r ( M ( x ) = y ) − δ P r ( M ( x ′ ) = y ) (4) D_{\infty}=\max\limits_{y}\ln\frac{Pr(\mathcal{M}(x)=y)-\delta}{Pr(\mathcal{M}(x')=y)} \tag{4} D=

### 实现机制 #### 中心化差分隐私中心化差分隐私模型中,数据收集者接收来自用户的原始数据并应用噪声来保护个体记录的安全性。这种情况下,服务器端负责添加足够的扰动以确保整个数据库遵循给定的隐私参数ε[^2]。 #### 本地差分隐私 (LDP) 对于ε-本地化差分隐私(ε-LDP),每个客户端设备独立地对其自身的敏感信息施加随机化过程,在上传之前就已经被模糊处理过了;因此即使攻击者能够截获传输中的消息也无法获取真实的个人信息[^1]。 ### 优点对比 #### 中心化差分隐私的优势 - **准确性更高**:由于是在汇总后的数据集上加入噪音,所以相比起逐条记录单独处理的方式可以获得更精确的结果。 - **灵活性更强**:可以针对不同类型的查询设计最优方案,并且容易适应新的需求变化。 #### LDP的优点 - **更高的安全性保障**:因为个人资料从未离开过用户手中就被扰乱了,从而减少了因第三方存储而带来的风险。 - **无需信任假设**:不需要依赖于任何外部实体(如服务提供商)来进行安全承诺或审计验证。 ### 缺点分析 #### 中心化方式存在的局限性 - 用户可能不愿意分享未经加工过的私密细节给他人保管。 #### 使用LDP面临的挑战 - 数据质量损失较大:为了达到严格意义上的匿名效果,往往需要引入较多干扰因素,这会影响最终统计结论的有效性和可靠性。 - 技术复杂度增加:实现高效能的同时保持良好性能并非易事,特别是在大规模部署环境下更是如此。 ### 应用场景举例 #### 更适合采用中心化方法的情形 当组织内部拥有较强的数据管理和安全保障能力时可以选择这种方式,比如政府机构开展人口普查工作或是医疗机构做临床研究项目等场合下,可以通过建立可靠的基础设施来维护参与者权益不受侵犯。 #### 推荐运用LDP的情况 互联网公司开发移动应用程序时经常面临如何平衡用户体验与隐私保护之间的矛盾,此时利用LDP技术可以在不牺牲太多功能性的前提下让用户放心提交反馈意见或者参与在线调查活动[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值