Data privacy、Principle and Practices精简（二）

关系数据的匿名化：k-匿名与隐私保护原则

最新推荐文章于 2024-07-17 23:52:00 发布

原创

最新推荐文章于 2024-07-17 23:52:00 发布 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#数据 #隐私

本文介绍了静态数据匿名化的概念，重点关注关系数据的匿名化方法，如k-匿名。讨论了保护显式标识符、近似标识符和敏感数据的重要性，强调了在匿名化过程中保持数据的分析效用和保护隐私的平衡。k-匿名通过确保每个数据组至少有k个相同记录来防止身份泄露，但面临选择合适k值、效率和可用性等问题。文章还提及了l-多样性和t-接近性作为k-匿名的补充方法。

静态数据的匿名化：关系数据

静态数据匿名应用有两个：

privacy preserving data mining （PPDM）
privacy preserving test data management （PPTDM）

1. Classification of Privacy Preserving Methods（隐私保护的方法分类）

在精简（一）中已经提到了关系型数据集 $D$ 主要由四种互斥数据组成，EI、QI、SD 和 NSD。隐私保护主要分为两类：Perturbative（扰动的）和Nonperturbative（非扰动的），如下图
这里写图片描述

Suppression：Do not release a value at all；
Generalization：Replace the value with a less specific but semantically consistent value。
一般情况下，为了更好地对数据进行匿名，不只一种技术会用于实际应用中。

1.1 Protecting Explicit Identifiers

Principle（8） Understand the semantics of the data in the context of the application so as to apply the correct/appropriate anonymization technique on the data. （把数据放在应用环境中去理解语义，才能找到合适或正确的匿名技术）

这里给了一个例子，如下：
这里写图片描述
表中的 EI 是 ID 和 Name，在关系型数据库中，EI 也通常作为主键存在。在mask 他们的时候，应该考虑下面两个方面：

Referential integrity （参照完整性）
Consistently masking across databases（屏蔽数据库一致性）

**Principle（4）**Ensure consistency in masking data across applications in a domain.（确保在一个域内屏蔽数据的一致性）
为了保证 attribute 的格式和域内数据的一致性，我们建议使用基于 tokenization（one-way）的算法，给定输入 tokenization 会产生一个一致的 token。例如：