1. 差分隐私Differential Privacy
个人理解为:与原始数据有区别的隐私信息
- differential,意思是based on a difference,即有所區別的,有所差別的。
- an amount of difference between things that are compared,差額;差距
- a price differential 價格差距
- The pay differential between employees and management is too great. 工人與管理者之間的工資差距過大。
- We have a differential salary structure based on employees’ experience. 我們按照員工工作經驗的不同採用不同的薪金結構。
保护隐私概念
- 高德地图公开一个数据说开凯迪拉克的群体喜欢去洗浴中心。(非隐私)
- 高德地图公开一个数据说张xx喜欢去洗浴中心。(非隐私)
- 高德地图公开一个数据说张三喜欢去洗浴中心。(隐私)
2. 为什么需要差分隐私?
无论在中国还是世界上其他国家,保护用户隐私数据的核心需求都是源于监管要求和法律惩罚。
-
保护个人隐私:差分隐私可以有效地保护个人的隐私信息,即使在数据被发布或共享的情况下也能确保个人身份的保密性。
-
合规法规:随着数据隐私和安全法规的不断加强,很多组织和机构被要求采取措施来保护用户的隐私信息。差分隐私可以帮助组织和机构遵守相关法规。
-
增加数据可用性:差分隐私技术可以在保护隐私的同时,保持数据的可用性和可用性,使得数据可以被有效地使用和分析。
-
避免数据泄露:差分隐私可以有效地防止数据泄露和数据滥用,避免因数据泄露而导致的隐私风险。
-
社会责任:作为数据处理者,保护用户隐私是一种社会责任和义务。使用差分隐私技术可以体现组织和机构对用户隐私的尊重和保护。
- 法规上,以GDPR为例:
要求 | 具体内容 | 引用章节 |
---|---|---|
透明度和信息披露 | 提供清晰、透明的信息,告知数据处理的目的、方式和期限 | 第5条 |
数据主体的权利 | 访问、更正、删除、限制处理、数据可携带性等权利 | 第15-22条 |
数据处理的合法性 | 建立在合法的基础上,如同意、履行合同、法定要求等 | 第6条 |
数据安全 | 采取必要的技术和组织措施,保护数据安全 | 第32-34条 |
数据转移和数据删除 | 数据主体有权要求将数据转移或删除 | 第20、17条 |
数据保护官 | 一些组织需要指定数据保护官,监督数据处理活动 | 第37-39条 |
数据违规通知 | 在发生数据违规事件时,尽快向监管机构和数据主体通知 | 第33条 |
3. 隐私数据面临的威胁
案例一:
在一个企业人事数据库中,有100名员工,人均工资10000块(总数100 * 10000
),如果进来一名新员工王洛宾,攻击者不知道其工资信息,此时查询数据库得到人均工资是10099元。
那么即使攻击者不知道真实的,可以反推老王工资:10099 * 101 - 10000 * 100 = 20000
,老王工资信息泄露。
4. 差分隐私的数学定义
对于任意两个相邻的数据集 D D D 和 D ′ D' D′(即仅相差一个个体数据),对于算法 M M M 的输出 O O O 和任意子集 S S S 有:
Pr [ M ( D ) ∈ S ] ≤ exp ( ε ) ⋅ Pr [ M ( D ′ ) ∈ S ] \text{Pr}[M(D) \in S] \leq \exp(\varepsilon) \cdot \text{Pr}[M(D') \in S] Pr[M(D)∈S]≤exp(ε)⋅Pr[M(D′)∈S]
其中,
- Pr [ M ( D ) ∈ S ] \text{Pr}[M(D) \in S] Pr[M(D)∈S] 表示在数据集 D D D 上运行算法 M M M 后输出结果落在集合 S S S 中的概率。
-
exp
(
ε
)
\exp(\varepsilon)
exp(ε) 是一个大于 1 的常数,
ε
\varepsilon
ε 是一个非负数,称为隐私参数,用于控制隐私泄露的程度。
随着 ε \varepsilon ε 的增加,允许的隐私泄露程度也增加。
当 ε \varepsilon ε = 0.5时,即 exp ( 0.5 ) ≈ e 0.5 ≈ 1.6487 \exp(0.5) \approx e^{0.5} \approx 1.6487 exp(0.5)≈e0.5≈1.6487,当 ε \varepsilon ε = 0时,exp(ε)=1。 - D ′ D' D′ 是与数据集 D D D 相邻的数据集,即仅相差一个个体数据。
5. 差分隐私理论实现
差分隐私实现以添加噪声的方式,扰动原始数据,以使攻击者无法获得准确的数据。
添加噪声可以在输入到输出中任意阶段进行。
添加噪声后,获得的数据结果只是与原来的相似而非一样。
比如需要统计高血压的年龄段,系数偏差0.01对结果影响不大,但攻击者因此就无法获得准确的某个高血压患者的真实年龄。
另外,在实践中,通常有使用拉普拉斯机制(Laplace Machanism)和指数机制(Exponential Mechanism)来实现差分隐私保护。
其中,拉普拉斯机制用于数值型结果的保护,指数机制用于离散型结果的保护。
差分隐私中有两个主要参数:敏感度(Sensitivity)以及隐私预算(Privacy Budget).
- 一些可用于实现DP的工具
名称 | 描述 |
---|---|
Microsoft WhiteNoise | 由微软开发的开源项目,提供了用于数据分析的差分隐私工具和库。 |
Google TensorFlow Privacy | 基于 TensorFlow 框架,提供了一系列差分隐私工具和算法,用于训练机器学习模型。 |
Apple PrivateKit | 苹果公司开发的差分隐私工具包,用于在 iOS 和 macOS 系统上实现差分隐私保护。 |
OpenDP | 一个由社区支持的开源项目,旨在提供一套通用的差分隐私工具和库。 |
IBM Differential Privacy Library | 由 IBM 开发的差分隐私工具库,提供了一些常见的差分隐私算法和技术。 |
OpenMined | 一个开源社区项目,致力于构建隐私安全的机器学习和数据分析工具。 |
6. 差分隐私涉及算法
差分隐私机制是一种理念,只要能实现通过,下面是常见的五种算法类型:
-
拉普拉斯机制(Laplace Mechanism):拉普拉斯机制是差分隐私中最基本的机制之一,通过向查询结果添加服从拉普拉斯分布的噪声来实现隐私保护。
参考维基百科:Laplace Mechanism -
指数机制(Exponential Mechanism):指数机制是一种用于选择有限集合中元素的随机化机制,可以通过指数分布的噪声来保护查询结果的隐私。
参考维基百科:Exponential Mechanism -
直方图机制(Histogram Mechanism):直方图机制是一种针对连续型数据的差分隐私机制,通过将数据分成多个区间并对每个区间添加噪声来实现隐私保护。
-
局部敏感哈希(Locally Sensitive Hashing,LSH):LSH是一种用于近似最近邻搜索的技术,可以在不泄露具体数据的情况下对数据进行匿名化处理。
-
深度学习技术:近年来,深度学习技术在差分隐私领域得到了广泛应用,例如使用生成对抗网络(GANs)来生成满足差分隐私条件的合成数据。
7. 差分隐私的应用(金融行业为例)
-
客户数据保护: 金融机构收集大量客户数据,包括个人身份信息、交易记录、信用评分等。差分隐私可以应用于对这些数据进行加密和匿名化处理,以保护客户的个人隐私。
-
风险评估和预测: 差分隐私技术可以用于分析客户的财务状况和行为模式,从而评估其风险水平,并预测可能的财务风险。这有助于金融机构更好地管理风险,提供个性化的金融服务。
-
反欺诈: 差分隐私可以在金融交易中应用于检测欺诈行为,同时保护客户的隐私。通过对交易数据进行差分隐私处理,金融机构可以识别异常交易模式,及时发现潜在的欺诈活动。
-
市场分析和行为研究: 差分隐私可以帮助金融机构进行市场分析和客户行为研究,了解客户需求和行为偏好,从而优化产品设计和营销策略,提高市场竞争力。
-
合规性和监管要求: 在金融行业,合规性和监管要求非常严格,涉及大量敏感数据的处理和保护。差分隐私可以帮助金融机构满足合规性和监管要求,同时保护客户的隐私权。
-
金融数据共享: 差分隐私技术还可以促进金融数据的安全共享和合作分析。金融机构可以通过差分隐私技术对数据进行保护,并与其他机构或合作伙伴共享数据,共同开展数据分析和研究,从而获得更深入的洞察和价值。
场景:
假设一家银行想要检测信用卡交易中的欺诈行为,但又不想泄露客户的个人交易信息。
解决方案:
1. 数据收集: 银行首先收集客户的信用卡交易数据,包括交易金额、交易时间、交易地点等信息。这些数据可能包含敏感信息,如客户的姓名、卡号等。
2. 差分隐私处理: 银行对收集到的交易数据进行差分隐私处理。这包括对交易金额、交易时间等关键字段添加噪声,以保护客户的隐私。例如,可以在交易金额上添加一个随机的噪声值,以模糊实际交易金额的精确值。
3. 模型建立: 经过差分隐私处理后的数据用于建立欺诈检测模型。银行可以使用机器学习或统计方法建立模型,识别异常的交易模式。例如,模型可以检测到与客户正常消费模式不符的大额交易或在不寻常时间或地点进行的交易。
4. 欺诈检测: 建立好的模型可以应用于实时的信用卡交易监测中。当发生一笔新的交易时,模型会分析该交易的特征,并根据预先设定的规则和模式识别方法判断是否存在欺诈行为。由于数据已经经过差分隐私处理,因此即使模型发现了欺诈行为,也不会泄露客户的个人敏感信息。
5. 警报和反应: 如果模型检测到了潜在的欺诈行为,系统会触发警报,并通知相关人员进行进一步的调查和处理。银行可以采取适当的措施,如暂停账户或联系客户确认交易信息,以防止欺诈行为的发生或扩散。
8. 参考
- [网页]差分隐私保护:从入门到脱坑
- [视频]差分隐私机器学习——熠智科技
- [视频]【教材分享交流】差分隐私—《Differential Privacy From Theory to Practice》-chapter1、chapter2
- [文章]Differential privacy (Cynthia Dwork·2006)