The Promise of Differential Privacy
“差分隐私”是指资料持有人或管理者对资料当事人作出的承诺:“不论研究、数据集或信息来源如何,你的资料在用于任何研究或分析的过程中都不会对你造成不利或其他方面的影响。”最强的优势在于,差分隐私所采用的数据库机制可以使保密数据广泛地用于精确数据分析,而不需要重新利用数据仓库、数据存储协议、数据保护计划或受限视图。尽管如此,数据的效用最终还是会被消耗殆尽: 信息恢复基本法则中提到,对所有问题的回答都过于准确会对隐私性造成惊人的破坏。而差分隐私的算法研究的目标是尽可能地推迟这种结局。
差异隐私指出了一个悖论,即在学习关于一个群体的信息时,却对某个个人一无所知。一个医疗数据库可能会告诉我们,吸烟会导致癌症,从而影响保险公司对吸烟者长期医疗成本的看法。吸烟者是否受到了分析的伤害?也许——如果保险公司知道他吸烟,他的保险费可能会上升。他也可能因此而得到帮助-了解他的健康风险,从而参加一个戒烟计划。吸烟者的隐私被侵犯了吗? 在这项研究之后,人们对吸烟和肺癌之间的关联这一事件的了解要比之前多,但他的信息是否被“泄露”了呢?在差分隐私中答案是否定的。理由是对吸烟者的影响与他是否在研究中无关。影响吸烟者的是研究中得出的结论,而不是他在数据集中的存在与否。
差分隐私印证了相同的结论,例如,吸烟可能会导致癌症,这一研究结论独立于任何个人是否在数据集内。具体来讲,它确保任何输出序列(对查询的响应)“本质上”是等可能发生的 (翻译的不太对劲),独立于任何个体数据的存在与否。其概率由由隐私机制(数据管理员)制定的随机性决定,“本质上”这个词是被一个参数ε决定。较小的ε隐私性较强(同时会降低查询的准确性)。
差分隐私是一个定义,而不是一个算法。对于一个给定的计算任务T和给定值ε,有许多不同的差分隐私算法可以在满足ε-differentially条件下实现任务T。算法的准确性不同。当ε很小,找到一个高度精确ε-differentially私人T算法可以很困难,就像找到一个数值稳定的算法,具体的计算任务需要努力。
1.1 隐私保护数据分析
差分隐私是为数据分析隐私保护而定制的隐私定义。我们简单地介绍解决这一问题的其他方法的关注点。
数据不能在完全匿名的条件下仍保持其可用性。一般来说,数据越丰富,它就越有趣和有用。这衍生出“匿名化”和“删除个人身份信息”的概念,希望部分数据记录可以被保密封锁,其余的数据记录可以用来发布和分析。然而,丰富的数据支持通过字段或属性的集合来“锁定”到个人,例如邮政编码、出生日期和性别的组合,甚至是三部电影的名字和个人观看这些电影的大致日期。这种“命名”功能可用于连锁攻击,将不同数据集中的“匿名”记录与非匿名记录进行匹配。因此,还有其它的医疗记录的管理或者是通过匹配识别匿名医学遇到数据(公开)选民登记记录, Netflix公司发布了一组匿名电影记录,作为推荐比赛的训练数据,其中包含了Netflix公司的观看历史,这些用户通过与互联网电影数据库(IMDb)的链接被识别出来。
差分隐私可以抵御连锁攻击:由于差分隐私是数据访问机制的一个特性,且与对手所能获得的辅助信息的存在与否无关。对IMDb的访问将不允许对Netflix训练集中的历史记录的人进行链接攻击,就像无法对不在训练集中的人进行链接攻击一样。
重识别“匿名化”记录并不是唯一的风险。对“匿名”数据记录进行重识别是不道德的,这不仅因为重识别本身肯定会泄露数据集的成员关系,而且还因为记录可能包含一些敏感或不良信息,如果它与某人有关,可能会对其造成伤害。假如某一急救中心在某一特定日期的医疗事故记录集合可能只列出少数明确的投诉或诊断。某邻居在该日期访问了医院,这一额外的信息极大收缩了范围,以此可以推测邻居的病情。无法将具体的记录与邻居相匹配是为邻居提供的最低限度的隐私保护。
对大集合的查询不具有保护作用。关于特定个体的问题不能同时做到安全且准确地回答,实际上人们可能希望立即拒绝他们(如果在计算上能够识别他们的话)。但强制人们只能查询大型集合并不是万能的,如下面的差分攻击所示。假设已知X先生在某个医疗数据库中。如是回答这两个大问题:“数据库中有多少人有镰刀细胞症?”和“数据库中有多少人有镰刀细胞症且名字不为X?”会泄露x先生的镰状细胞状态。
查询审计存在问题。人们可能倾向于审计查询和响应的顺序,目的是阻止响应根据历史记录,回答当前的查询会造成隐私损害和泄露的问题。例如,审计人员标记出可能构成不同攻击的查询对。这种方法有两个局限点。首先,拒绝回答一个问题这个行为本身就有可能泄露机密。其次,查询审计在计算上是不可行的。而且如果查询语言足够丰富,甚至可能不存在能通过一个算法来确定一对查询是否会构成差分攻击。
汇总统计数据并不“安全”。“在某种意义上,汇总统计不能作为隐私解决方案的原因来自刚才描述的差分攻击。汇总统计的其他问题包括对数据库的各种重建攻击,数据库中每个个体都有一个“秘密位”需要保护。攻击操作的目标可能是允许询问诸如“有多少人的信息满足属性P的秘密位值为1?”之类的问题。另一方面,对手的目标是显著增加其猜测个人秘密位数的机会。第8.1节中描述的重构攻击表明,即使对这种类型的线性数量的查询也很难进行保护:除非引入足够的干扰,否则几乎所有的秘密位都可以被重构。
(重建攻击:Reconstruction attack
A reconstruction attack is any method for partially reconstructing a private dataset from public aggregate information. Typically, the dataset contains sensitive information about individuals, whose privacy needs to be protected. The attacker has no or only partial access to the dataset, but has access to public aggregate statistics about the datasets, which could be exact or distorted, for example by adding noise. If the public statistics are not sufficiently distorted, the attacker is able to accurately reconstruct a large portion of the original private data. Reconstruction attacks are relevant to the analysis of private data, as they show that, in order to preserve even a very weak notion of individual privacy, any published statistics need to be sufficiently distorted. This phenomenon was called the Fundamental Law of Information Recovery by Dwork and Roth, and formulated as “overly accurate answers to too many questions will destroy privacy in a spectacular way.”)
发布汇总统计数据存在风险的一个突出例证是统计技术的应用,统计技术最初用于确定法医混合样本中某个人DNA是否存在存在,现在则用于在全基因组关联研究中确定或排除个人。根据人类基因组计划的一个网站,“单核苷酸多态性,或SNPs(发音为“snips”),是当基因组序列中的一个核苷酸(a、T、C或G)被改变时发生的DNA序列变异。例如,一个SNP可能会将DNA序列AAGGCTAA改变为ATGGCTAA。“在这种情况下,我们说有两个等位基因:A和t。对于这样一个SNP,我们可以问,给定一个特定的参考人群,两种可能存在的等位基因的频率分别是多少?”给定参考群体中snp的等位基因频率,我们可以检查这些基因频率在有特定疾病的亚群体(“病例”组)中都有何不同,寻找与疾病相关的等位基因。因此,全基因组关联研究可能包含大量snp病例组的等位基因频率。根据定义,这些等位基因频率只是汇总的统计数据,而且(错误的)假设是,通过这种汇总,他们保持了隐私。然而,通过个体的基因组数据,理论上有可能推测出该个体是否属于病例组(患有该疾病)。作为回应,美国国立卫生研究院(National Institutes of Health)和惠康基金会(Wellcome Trust)终止了公众对它们资助的研究的汇总频率数据的访问。
即使对于差分隐私来说,这也是一个具有挑战性的问题,因为涉及的测量数据数量很大——数十万甚至100万——而在案例组中个人的数量相对较少。
“常规”事实不是“好的”。对“常规”事实的分析,例如购买面包,如果一个数据对象随着时间的推移被跟踪,可能会出现问题。例如,以t先生为例,他年复一年地定期购买面包,直到突然很少购买面包。分析者可能会得出结论,T先生最有可能被诊断为2型糖尿病。分析者的判断可能是正确的,也可能是错误的;但不管结果怎样,T先生都受到了伤害。
“只是一小部分”。 在某些情况下,一种特殊的技术实际上可能为数据集的“典型”成员或更一般的“大多数”成员提供隐私保护。在这种情况下,人们经常听到这样的争论: 这种技术没有问题,因为它只是损害了“少数”参与者的隐私。撇开偏激者核对极端者的意见不谈,“少数问题”可能恰恰是那些认为隐私最重要的人的关注,“少数人”的哲学本质上并不是没有价值的: 需要做出一种社会判断,并权衡成本和收益。一个与“仅仅是少数人”哲学相一致的清晰的隐私定义还有待发展; 然而,对于一个数据集,“仅仅一小部分”隐私可以通过随机选择一个子集的行和释放他们全部(引理4.3,第四节),抽样范围描述的质量进行统计分析,可以随机次级样本管理发布的行数。当“只有一少部分”的观点被否认时,差异隐私提供了另一种选择。