静态数据的匿名化:关系数据
静态数据匿名应用有两个:
- privacy preserving data mining (PPDM)
- privacy preserving test data management (PPTDM)
1. Classification of Privacy Preserving Methods(隐私保护的方法分类)
在精简(一)中已经提到了关系型数据集 D 主要由四种互斥数据组成,EI、QI、SD 和 NSD。隐私保护主要分为两类:Perturbative(扰动的)和Nonperturbative(非扰动的),如下图
Suppression:Do not release a value at all;
Generalization:Replace the value with a less specific but semantically consistent value。
一般情况下, 为了更好地对数据进行匿名,不只一种技术会用于实际应用中。
1.1 Protecting Explicit Identifiers
Principle(8) Understand the semantics of the data in the context of the application so as to apply the correct/appropriate anonymization technique on the data. (把数据放在应用环境中去理解语义,才能找到合适或正确的匿名技术)
这里给了一个例子,如下:
表中的 EI 是 ID 和 Name,在关系型数据库中,EI 也通常作为主键存在。在mask 他们的时候,应该考虑下面两个方面:
- Referential integrity (参照完整性)
- Consistently masking across databases(屏蔽数据库一致性)
**Principle(4)**Ensure consistency in masking data across applications in a domain.(确保在一个域内屏蔽数据的一致性)
为了保证 attribute 的格式和域内数据的一致性,我们建议使用基于 tokenization(one-way)的算法,给定输入 tokenization 会产生一个一致的 token。例如:
关系数据的匿名化:k-匿名与隐私保护原则

本文介绍了静态数据匿名化的概念,重点关注关系数据的匿名化方法,如k-匿名。讨论了保护显式标识符、近似标识符和敏感数据的重要性,强调了在匿名化过程中保持数据的分析效用和保护隐私的平衡。k-匿名通过确保每个数据组至少有k个相同记录来防止身份泄露,但面临选择合适k值、效率和可用性等问题。文章还提及了l-多样性和t-接近性作为k-匿名的补充方法。
最低0.47元/天 解锁文章
759

被折叠的 条评论
为什么被折叠?



