差分隐私(differential privacy)

当企业需要用户的数据提升自己算法的性能,用户担心数据隐私遭到泄露时,矛盾便出现了。

数据匿名化用来保护用户隐私,但用户不确定企业是否将隐私匿名化,以及匿名化的程度。Netflix发布了电影评分数据集,包括100M条评分,480k用户,17K电影,并匿名化处理,但有研究者结合Netflix和IMDB数据库,成功识别出一些人;匿名化后的马萨诸塞州的医疗记录和选票记录相结合,发现符合州长的邮编、出生日期、性别只有一人,因此暴露了州长的医疗记录。一项研究表明只要邮编、出生日期、性别三样信息就能确定87%的美国人。

差分隐私被提出,在不暴露用户隐私的前提下还能不影响统计结果。原理是,在用户数据到达企业时,用抛硬币算法决定是否给真实的数据。
在这里插入图片描述
这样数据有25%的概率为假数据,从源头使得数据变得不可信,抛硬币算法被称为“噪声”,在已知噪声分布的前提下,给出一些补偿,最终得到一个相对准确的统计结果。在实际应用中,拉普拉斯分布(laplace distribution)用于扩大数据的分布范围,提高匿名性。

由于注入的噪声,差分隐私只适用于大型数据集,小型数据集会因为噪声导致不准确的结果。差分隐私相较于匿名化更难实现。

总之:差分隐私能帮助企业更了解一群用户,但不侵犯个人用户的隐私。

但DP难以完全保护数据内容的隐私,因为它更关注保护个人身份不被泄露,而不是数据本身的泄露。PII泄露的问题通常涉及数据内容(数据本身)的隐私性,而DP更适用于对个体身份的隐私保护。比如在一群用户之间传播的信息“简患有癌症”。差分隐私能保护每个用户的身份不被泄露(没人知道谁说过这个话),但信息本身通过LM泄露出来。

不使用差分隐私,为什么存在隐私泄露的风险:
你有一个小型数据库,里面包含了5个人的年龄信息:30岁、40岁、29岁、25岁和31岁。你想要计算这个群体的平均年龄。

在不使用差分隐私的情况下,你会直接计算这些年龄的平均值。对这5个数字求平均,结果是(30+40+29+25+31)/5 = 31岁。

现在,假设有一个新的数据项加入,这个人的年龄是60岁。你再次计算平均年龄,现在的结果是(30+40+29+25+31+60)/6 ≈ 35.83岁。

在这个例子中,仅仅通过观察平均年龄的变化,我们就能推断出新加入的这个人的年龄明显高于群体的原始平均年龄。这就暴露了这个新加入的人相对较高的年龄信息。

应用差分隐私:

  1. 计算平均年龄:首先计算所有人的平均年龄,假设这个真实平均年龄是30岁。
  2. 选择噪声分布:根据选定的ε值,选择一个噪声分布,如拉普拉斯分布。在差分隐私中,拉普拉斯分布的标准差与ε成反比
  3. 生成噪声:从所选的噪声分布中生成一个随机噪声值。例如,如果ε是0.01,则从一个具有较高标准差的拉普拉斯分布中提取噪声,这会生成一个较大的随机数,如果ε是1,噪声值会小得多
  4. 添加噪声到结果:将噪声值添加到真实的平均年龄,例如,如果真实平均年龄是30岁,从拉普拉斯分布中生成的噪声是2岁,那么发布的平均年龄是32岁。

为什么差分隐私能保护隐私
你有一个小型数据库,里面包含了5个人的年龄信息:30岁、40岁、29岁、25岁和31岁。你想要计算这个群体的平均年龄。

在不使用差分隐私的情况下,你会直接计算这些年龄的平均值。对这5个数字求平均,结果是(30+40+29+25+31)/5 = 31岁。

使用差分隐私后,假设噪声值=8,添加到平均年龄,31+8 = 39;噪声值为1,31+1 = 32

现在,假设有一个新的数据项加入
这个人的年龄是60岁,噪声为1,现在的结果是(30+40+29+25+31+60)/6 + 1 ≈ 36.83岁。
这个人的年龄是20岁,噪声为8,现在的结果是(30+40+29+25+31+20)/6 + 8 ≈ 37.16岁

加入噪声后,通过观察平均年龄,变化仅仅可能是因为随机噪声,而不是新数据点的实际值。这样即使有新数据点加入,观察者也不能确定新数据点的具体影响,从而保护的个人隐私。

  • 10
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
隐私Differential Privacy)是一种隐私保护的技术,旨在保护个体数据的隐私,并在个体数据的基础上提供统计分析结果。pyvacy是一个基于Python编程语言实现的隐私工具库。 隐私通过向原始数据中注入噪声,使得攻击者无法根据输出的结果确定个体的具体数据。这种噪声的注入是经过严格数学设计和计算的,保障了数据的隐私性。 pyvacy提供了一系列的隐私算法和工具,方便开发者在数据分析任务中应用隐私技术保护数据隐私。它支持的功能包括随机响应机制、局部敏感哈希、拉普拉斯机制等,可根据具体需求选择适合的算法。 pyvacy的使用过程相对简单,首先选择适当的隐私算法,然后根据具体的数据集和分析任务设定隐私参数。接下来,使用pyvacy提供的函数和方法对数据进行隐私保护,即注入隐私噪声。之后,可以进行相应的数据分析或计算,并根据结果进行相应的隐私保护措施。 隐私pyvacy带来的好处是能够在维护数据隐私的同时,保证对数据的分析结果是准确的。它适用于各种场景下的数据分析任务,如社交网络分析、医疗数据分析、金融数据分析等。 总的来说,隐私pyvacy提供了一个便捷的工具库,用于实现隐私保护,保障个体数据的隐私,并为数据分析提供准确可靠的结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值