静态数据的匿名化:关系数据
静态数据匿名应用有两个:
- privacy preserving data mining (PPDM)
- privacy preserving test data management (PPTDM)
1. Classification of Privacy Preserving Methods(隐私保护的方法分类)
在精简(一)中已经提到了关系型数据集 D 主要由四种互斥数据组成,EI、QI、SD 和 NSD。隐私保护主要分为两类:Perturbative(扰动的)和Nonperturbative(非扰动的),如下图
Suppression:Do not release a value at all;
Generalization:Replace the value with a less specific but semantically consistent value。
一般情况下, 为了更好地对数据进行匿名,不只一种技术会用于实际应用中。
1.1 Protecting Explicit Identifiers
Principle(8) Understand the semantics of the data in the context of the application so as to apply the correct/appropriate anonymization technique on the data. (把数据放在应用环境中去理解语义,才能找到合适或正确的匿名技术)
这里给了一个例子,如下:
表中的 EI 是 ID 和 Name,在关系型数据库中,EI 也通常作为主键存在。在mask 他们的时候,应该考虑下面两个方面:
- Referential integrity (参照完整性)
- Consistently masking across databases(屏蔽数据库一致性)
**Principle(4)**Ensure consistency in masking data across applications in a domain.(确保在一个域内屏蔽数据的一致性)
为了保证 attribute 的格式和域内数据的一致性,我们建议使用基于 tokenization(one-way)的算法,给定输入 tokenization 会产生一个一致的 token。例如: