目录
摘要
梳理差分隐私用于人口普查、数字广告和大型语言模型中的个人信息保护案例,发现通过差分隐私实现个人信息保护仍然存在概念定义不一、隐私单元不明、参数难以选定、隐私记账困难、缺乏简明解释、造成不公平问题和法律效果不确定7个难点,并逐个探讨了突破这些难点的思路。化解差分隐私的实践难点不仅可以加强个人信息保护,也可以促进数据要素流通利用。
关键词: 差分隐私; 个人信息保护; 隐私记账; 交互设计; 数据要素流通利用
0 引言
差分隐私为个人信息的受保护程度提供了一种形式化的定义。具体来说,给定一个数据库x,对于任何一个只在一个数据元素上与其存在差别的数据库y,如果对于机制M,记其值域为S,M(x)和M(y)在S的任意子集上都满足Pr[M(x)]<=eεPr[M(y)],则称M(x)满足“ε-差分隐私” [1] 。 M(x)满足差分隐私,意味着攻击者难以分辨x在单个数据元素上的变化,难以分辨的程度由参数ε衡量,参数ε也被称为隐私预算。ε越小,分辨单个数据的变化就越困难;ε越大,分辨就越简单。单个数据元素对应一条个人信息时,攻击者难以分辨这条个人信息的具体内容。因为,无论这条个人信息的内容原本是什么,经过机制M的处理之后,最终都会给出难以分辨的输出。相应地,ε越小,个人信息的受保护程度就越高;ε越大,受保护程度就越低。鉴于差分隐私能够为个人信息提供形式化、经过证明、强度足够的保护,多个监管机关和多种学术观点认可差分隐私具备显著加强,甚至在很大程度上解决个人信息保护问题的潜力 [2⇓-4] 。
差分隐私还具备两项优异的性质。一是后处理无关性,指在M之后发生的处理活动不会影响差分隐私的保护程度,即无需担心后续处理削弱个人信息的受保护程度。这不仅意味着差分隐私提供的保护足够稳健,还意味着基于差分隐私的个人信息保护可以和其他处理活动彻底解耦,在实践中是非常理想的性质。二是可组合性,如果经过M1和M2两个机制处理的x分别满足ε1和ε2差分隐私,则M1M2(x)满足ε1+ε2差分隐私。可组合性意味着个人信息的受保护程度能够通过机制的设计和参数的取值来定量加总、拆分和记账,从而可以定量地管理、分配和审计[5] 。对于参与数据要素市场的个人信息来说,受保护程度可以定量地管理、分配、审计,是十分理想的性质。
差分隐私定义简明、潜力突出、性质优异,因此已在世界各地用于重要的个人信息保护项目。与此同时,在实践中也暴露了一些难点。如果不能化解这些难点,差分隐私解决个人信息保护、促进数据流通利用的潜力就无法充分实现。当前,探索比较深入、影响力比较大、难点暴露也比较充分的项目主要有3个。一是美国人口普查通过采用差分隐私,探索在公开利用普查信息的同时,保护个人信息免受不当披露;二是谷歌在数字广告领域推行“隐私沙盒”,探索充分保护个人信息保护的数字广告归因;三是在大型语言模型的训练过程中实施差分隐私,缓解训练数据泄露个人信息的风险。这些项目不仅暴露了差分隐私在实践应用中有待解决的7个难点,也为化解这些难点提出了思路。
1 实践案例
无论是人口普查和数字广告,还是大型语言模型,差分隐私的实践案例都可以按照统一的格式加以梳理,主要包含5个部分。一是对场景的整体介绍。二是法律对个人信息保护的要求。三是介绍所采用的差分隐私的定义。除了“ε-差分隐私”之外,差分隐私后续也出现了一些扩展的变体。四是介绍所采用的差分隐私的技术参数。五是采用差分隐私所引起的主要争议。
首先是人口普查。美国1954年修正的联邦《人口普查法》规定,不得披露任何能够识别到特定个人的普查信息。然而,由于美国人口普查数据公布到基层的行政区划,公布的数据类型也比较多样,从基层行政区划的多种统计数据中重建出特定个人的信息,