一、数据匿名化(Data anonymization)
许多组织试图保护自己免受个人信息意外泄露的一种方式是,在将数据集放在云端或另一个服务提供商那里之前,从数据集中删除所有识别信息。去除身份识别是指通过数据集,删除可能具有个人身份的数据的过程。
例如,我们肯定希望删除姓名、身份证和其他明显的识别信息。然而,简单的数据去标识化往往不足以完全保护信息。其原因是,我们经常可以将看似无害的字段结合起来,以唯一地识别一个人。卡内基梅隆大学的一项研究分析了去识别数据集中通常保留的三个字段:邮政编码(在美国会更为具体)、出生日期和性别。
我们知道,这些字段中的任何一个单独使用都不能识别某人。卡内基梅隆大学的研究发现,这三个元素加在一起可以唯一地识别美国87%的人。这对我们来说意味着,我们需要更谨慎地保护数据,而不是简单地删除明显的识别信息。我们不只是去掉数据的身份,而是要将数据匿名化,使别人几乎不可能弄清个人的身份。
HIPAA标准包括一个严格的数据匿名化过程,在分析界被广泛接受。它提供了两种清除数据集的途径。
- 首先,我们可以让统计学家分析我们的数据集,并验证它非常不可能披露个人的身份。这个途径需要接触到专业的统计人员,而且它确实包括意外泄露的可能性;
- 另外,我们也可以选择使用安全港(Safe Harbor)的方法,该方法要求从我们的数据集中剔除18个可能相互结合而暴露个人身份的数据元素。
二、数据模糊化(Data obfuscation)
从数据集中删除数据的另一种方法是将其转化为一种无法检索到原始信息的格式。这是一个叫做数据混淆的过程。而我们有几个工具可以帮助我们:
- 我们可以使用HASH函数将数据集中的一个值转化为一个HASH值,注意HASH值是不可逆的;
- 另一个的方法是标记化(Tokenization)。在标记化中,敏感值被替换为使用查找表的唯一标识符。例如,我们可以用一个随机生成的10位数字来替换一个广为人知的值,如学生的ID。然后,我们需要维护一个查询表,如果需要确定某人的身份,就可以将这些值转换回学生证。当然,如果我们使用这种方法,需要保持查询表的安全。因为这种标记化是可逆的,它通常被称为假名化(Pseudonymization)技术。
- 最后,在许多情况下,我们根本不需要重新识别数据。如果是这种情况,我们可以使用一种被称为屏蔽(masking) 的方法从文件中编辑数据。这只是将敏感信息替换成空白。例如,我们可以将身份证号码的所有数字替换为X。