Data privacy、Principle and Practices精简(二)

关系数据的匿名化:k-匿名与隐私保护原则
本文介绍了静态数据匿名化的概念,重点关注关系数据的匿名化方法,如k-匿名。讨论了保护显式标识符、近似标识符和敏感数据的重要性,强调了在匿名化过程中保持数据的分析效用和保护隐私的平衡。k-匿名通过确保每个数据组至少有k个相同记录来防止身份泄露,但面临选择合适k值、效率和可用性等问题。文章还提及了l-多样性和t-接近性作为k-匿名的补充方法。

静态数据的匿名化:关系数据

静态数据匿名应用有两个:

  1. privacy preserving data mining (PPDM)
  2. privacy preserving test data management (PPTDM)

1. Classification of Privacy Preserving Methods(隐私保护的方法分类)

在精简(一)中已经提到了关系型数据集 D 主要由四种互斥数据组成,EI、QI、SD 和 NSD。隐私保护主要分为两类:Perturbative(扰动的)和Nonperturbative(非扰动的),如下图
这里写图片描述

Suppression:Do not release a value at all;
Generalization:Replace the value with a less specific but semantically consistent value。
一般情况下, 为了更好地对数据进行匿名,不只一种技术会用于实际应用中。

1.1 Protecting Explicit Identifiers

Principle(8) Understand the semantics of the data in the context of the application so as to apply the correct/appropriate anonymization technique on the data. (把数据放在应用环境中去理解语义,才能找到合适或正确的匿名技术)

这里给了一个例子,如下:
这里写图片描述
表中的 EI 是 ID 和 Name,在关系型数据库中,EI 也通常作为主键存在。在mask 他们的时候,应该考虑下面两个方面:

  1. Referential integrity (参照完整性)
  2. Consistently masking across databases(屏蔽数据库一致性)

**Principle(4)**Ensure consistency in masking data across applications in a domain.(确保在一个域内屏蔽数据的一致性)
为了保证 attribute 的格式和域内数据的一致性,我们建议使用基于 tokenization(one-way)的算法,给定输入 tokenization 会产生一个一致的 token。例如:

InputData:12345
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值