Analyzing leakage of personally identifiable information in language models
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10179300
分析语言模型中的个人身份信息泄露
摘要
语言模型(LM)已被证明可以通过句子级别的成员推断和重建攻击泄露训练数据信息。对LM泄露个人身份信息(Personally Identifiable Information, PII)的风险理解受到了较少的关注,这可以归因于错误地假设数据集策划技术(如擦除)足以防止PII泄露。擦除技术减少了但并未阻止PII泄露的风险:在实践中,擦除是不完美的,并且必须在最小化披露和保留数据集效用之间权衡。另一方面,尚不清楚算法防御措施(如差分隐私)在多大程度上防止了PII披露,这些措施旨在保证句子或用户级别的隐私。在这项工作中,我们为通过黑盒提取、推断和重建攻击泄露PII的三种类型引入了严格的基于游戏的定义,仅通过API访问LM。我们对在三个领域(案例法、医疗保健和电子邮件)微调的GPT-2模型进行了实证评估,并有无防御措施。我们的主要贡献是(i)新的攻击可以提取比现有攻击多10倍的PII序列,(ii)表明句子级别的差分隐私降低了PII披露的风险,但仍泄露了约3%的PII序列,以及(iii)记录级别成员推断和PII重建之间的微妙联系。论文中所有实验的可复现代码可在 https://github.com/microsoft/analysing-pii-leakage 上获得。
I. 引言
语言模型(LM)是许多自然语言处理任务的基础[22, 48]。最先进的LM扩展到数万亿参数[19],并在大型文本语料库上预训练(例如,700GB[52])。通过在特定领域的数据集上微调,如人类对话[7]或临床健康数据[61],这些数据可能包含私密信息,来适应下游任务。
在LM中,记忆已被证明是隐私问题[9]。威胁在于攻击者通过学习谁提供了训练数据,即成员推断[30, 44, 45, 57],以及它包含关于谁的信息,即数据提取[9, 11, 29, 58, 68]。这两个类别可以是不同的,但后者中的关联可以用来推断前者的信息。对于LM来说,数据提取在实践中是一个重大威胁,因为已经证明具有黑盒API访问权限的攻击者可以提取至少1%的训练数据[11]。
现有工作集中在寻找任何类型记忆的下限,但不区分公共和私有泄露的信息。例如,泄露高度重复的常见短语并不违反GDPR[17]的隐私规定,而泄露个人身份信息(PII)则相反。在实践中,任何在真实敏感数据上训练的LM都必须保护PII,但对PII的记忆并不为人所熟知。我们认为,对LM中PII记忆风险的综合研究是缺失的。
考虑一个服务提供商,他希望部署一个用于撰写电子邮件的下一词预测LM,例如Google的Smart Compose[13]。他们的目标是训练一个不泄露PII且具有高效用的LM,并将其作为黑盒API提供。威胁在于攻击者通过LM学习PII,如姓名、地址或其他敏感信息。提取任何PII本身就可能构成隐私威胁。当攻击者可以将PII与上下文关联时,这种威胁就更加严重了,例如,“在2022年5月,[MASK]在LHS进行了化疗”。作为本文的一部分,我们研究了在实践中对LM进行此类攻击的可行性。图1展示了本文提出的PII攻击类型。
针对记忆的防御措施基于数据集策划和算法防御。PII擦除是一种数据集策划技术,它依赖于命名实体识别(NER)[35]来标记PII。现代NER基于Transformer架构[62],在临床健康数据上的名字召回率为97%,护理单元号码召回率为80%,这意味着在擦除后保留了许多PII[61]。机器学习流程结合了算法防御措施,如差分隐私训练算法[1, 16],以确保记录或用户级别的可证明隐私保证。
问题。PII擦除和差分隐私(DP)以降低模型效用为代价保护训练数据的隐私。为了更好的隐私而积极擦除会严重损害效用。同样,使用DP训练,效用降低与花费的隐私预算成反比,这决定了添加的噪声量。图2说明了单独使用擦除和DP以及将它们结合在一起时,如何降低不同大小LM的效用(增加困惑度),与完全没有防御的模型相比。我们观察到,擦除导致与使用DP训练时类似的困惑度。尽管DP模型提供的隐私保证已经得到了很好的研究,但当应用于记录或用户级别时,DP保证对减轻PII披露的贡献尚不清楚。
差分隐私在假设记录不太可能被复制的情况下提供保证,这可能不适用于现实世界的数据集[27]。PII经常在多个记录和用户之间复制。以电子邮件数据集为例,一个人的地址在一组用户中流传。在这种情况下,即使地址被许多人知道,也不能被视为公共信息[6]。然而,一个差分隐私的LM仍然可能泄露它。一个简单的缓解措施可能是在组级别应用DP,但组及其大小并不总是事先已知的,而在最坏情况下的组级DP对模型效用有严重的影响。
定量衡量PII擦除或DP提供的保护是一个开放的问题。没有现有的指标来分析在端到端机器学习流程中PII泄露的风险,其中像DP和PII擦除这样的防御措施相互交织。为此,我们专注于实证测量PII泄露,以便从业者能够做出明智的决策,并调整他们的隐私缓解措施,以实现所需的隐私/效用权衡。
概述。我们通过新的攻击和指标来解决这个问题,这些攻击和指标允许定量评估PII的泄露。我们确定了PII泄露的三种威胁,即(i)提取,(ii)重建和(iii)推断,并为它们提供了严格的基于游戏的定义。
PII提取衡量攻击者在没有任何关于模型训练数据集的知识的情况下,可以从LM中发现的PII序列的比例。有些PII,如地址或姓名,即使攻击者无法重建上下文,也可以直接重新识别(并伤害)个人。例如,考虑一个包含癌症患者笔记的健康数据集。泄露用户的PII表明他们患有癌症,这被一个不知情的攻击者揭露了。
PII重建和推断假设了一个更了解情况的攻击者,类似于成员推断,他们对数据集有一定的了解。例如,当攻击者想要了解更多关于用户的PII时,他们可以向LM形成掩蔽查询(例如,“John Doe住在[MASK],英格兰”),并尝试重建缺失的PII。在PII推断中,攻击者还知道一组候选者(例如,伦敦,利物浦)并且他们的目标是从该集合中推断PII。简而言之,PII提取考虑了一个没有任何关于数据分布或训练数据集知识的不知情攻击者,PII重建假设了一个部分了解情况的攻击者,他们知道PII可能出现的上下文,而PII推断假设了一个了解情况的攻击者,他们还知道PII的潜在候选者。
图1:展示了PII提取、重建和推断攻击技术的示意图。
图2:在ECHR数据集上对不同大小的LM进行消融研究(详见第IV节),展示了以下五种训练方式的LM的效用:(i)未防御,(ii)经过擦除,(iii)应用DP(ε=8),(iv)擦除+DP,以及(v)应用掩蔽输出。
对于这些攻击,我们形式化了如何精确测量泄露,并展示了这些公式是不切实际的。因此,我们提出了具体的攻击算法来近似这个理想的泄露,这在我们评估中得到了确认。我们的攻击可以应用于任何LM。我们专注于生成性LM,因为它们在实践中被部署来生成大量文本。我们在3个领域上微调的4种变体的GPT-2模型[51]上评估了我们的攻击:(i)法律案例,(ii)企业电子邮件,以及(iii)医疗设施评论。
我们的攻击可以提取的PII精度大约是相关工作的两倍,即使是在模型经过差分隐私训练的情况下。我们确定了增加PII泄露风险的因素。此外,我们发现了关于记录级别成员推断和PII重建攻击之间联系的新见解。使用我们的指标,我们首次测量了DP在保护PII泄露方面的效果。我们实证展示了记录级别的DP在很大程度上限制了PII泄露的威胁,但并未完全消除。这些结果为未来研究设计改善隐私/效用权衡的防御措施提供了积极的动机。例如,一个不那么激进的启发式擦除器,它考虑了其他防御措施(如ML流程中的DP)的贡献。为了促进此类研究,我们公开了我们的代码。
贡献。总结来说,我们的主要贡献包括:
- 我们提出了一个PII泄露的分类法,受到现有文献的启发,包括三种威胁模型:提取、重建和推断,并为每一种提供了基于游戏的定义。提取使攻击者能够从训练数据中学习真实的PII。重建和推断泄露了PII及其上下文之间的关联。
- 我们在三个数据集上评估了隐私/效用权衡,使用了(i)未防御,(ii)DP,以及(iii)擦除的LM。
- 我们将我们的攻击与现有工作进行了比较(如果适用),并展示了我们可以通过利用掩蔽查询的后缀和公共掩蔽LM,正确重建多达10倍的PII序列。
- 我们研究了成员推断和PII重建之间的关系。