https://ar5iv.labs.arxiv.org/html/2310.15469
这篇文章的标题是 “The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks”。介绍了LLM的隐私风险,通过简单的微调就有隐私泄露。
通过kimi,快速了解一下文章中个人比较关心的内容。
摘要:
2018年以后,像OpenAI的ChatGPT这样的创新展示了惊人的语言能力,标志着大型语言模型(LLMs)时代的出现。随着行业加速增加模型参数和利用大量人类语言数据,安全和隐私挑战也出现了。首先,在基于 web 的数据获取过程中,可能会无意间累积个人可识别信息 (PII),从而产生意外的 PII 泄露风险。虽然诸如 RLHF 训练和灾难性遗忘等策略已用于控制隐私侵犯风险,但最近 LLM 的进步,尤其是 OpenAI 的 GPT-3.5 微调接口,重新引发了关注。人们可能会问:LLM 的微调会导致训练数据中嵌入的个人信息泄露吗?本文报告了首次试图回答这个问题,尤其是我们发现了新的 LLM 利用途径,称为 Janus 攻击。在攻击中,可以构建一个 PII 关联任务,其中 LLM 使用一个非常小的 PII 数据集进行微调,以潜在地恢复和揭示隐藏的 PII。我们的研究结果表明,在微调支出很小的情况下,像 GPT-3.5 这样的 LLM 可以从对 PII 提取不可渗透的状态转变为泄露大部分隐藏 PII 的状态。这项研究通过深入研究Janus攻击,强调了驾驭LLM效用和隐私保护之间复杂相互作用的必要性。
备注
“Janus”这个名词来源于罗马神话中的两面神Janus,他通常被描绘为拥有两张面孔,一张面向过去,一张面向未来。在神话中,Janus象征着开始和结束、进入和离开,以及过去和未来。在这篇文章的背景下,Janus攻击的命名可能寓意着这种攻击方法能够“看穿”模型的过去(即训练数据中的PII),并“预见”到通过微调可能泄露的未来(即恢复和揭示隐藏的PII)。这种攻击方法通过微调模型,使得原本在模型训练后应该被遗忘的敏感信息得以恢复,从而暴露出模型在隐私保护方面的脆弱性。正如Janus神的两面性,Janus攻击揭示了LLMs在处理隐私信息时的双重性质:一方面,它们能够学习和记忆大量的信息;另一方面,这些信息在某些情况下可能会被不当恢复,导致隐私泄露
面临的主要问题:
文章探讨的主要问题是大型语言模型(LLMs)在微调后可能会无意中泄露在训练阶段学到的个人可识别信息(PII)。这是一个重要的隐私风险,因为LLMs可能会在微调后恢复并披露原本被遗忘或未被直接访问的敏感数据。
主要方法:
文章首先开发了一种 Strawman 方法,以证明可用于 LLM 训练的一小部分 PII 可用于恢复嵌入在 LLM 训练数据中的很大一部分 PII。这种方法首先将 PII 转换为文本,然后将其用作训练数据集来微调 LLM。随后,通过在精细的数据集上以提示的形式向微调的 LLM 提出查询,可以有效地恢复额外的 PII。尽管 Strawman 方法可以恢复相当数量的 PII,但发现其性能不太稳定。为了解决这个问题,进一步设计了一种名为Janus的新方法,通过微调LLMs来恢复和揭示隐藏的PII。Janus方法,定义了一个PII恢复任务,结合了少量样本微调技术,以提高PII恢复的稳定性和准确性。
观点和发现:
文章的主要观点是,LLMs的微调可能成为绕过为保护隐私而实施的安全措施的一种手段。通过Janus攻击,研究者们发现即使是在小规模的PII数据集上进行微调,也能显著提高LLMs恢复和泄露隐藏PII的能力。此外,文章还指出,更大的模型在训练数据上具有更强的记忆能力,从而更容易恢复遗忘的PII,并且对PII恢复攻击更为敏感。最后,文章强调了在增强LLM功能和保护用户隐私之间找到平衡的重要性。
3 关键观察和洞察
3.1 Strawman 方法
图 1: Strawman 解决方案的工作流程
作为初步尝试,我们提出了一种 Strawman 方法,作为通过微调恢复目标 PII 关联的基础方法。图 1 展示了 Strawman 方法背后的方法论,演示了其在 ChatGPT(GPT-3.5)的微调接口内的实现。在我们的实现中,我们注意到先前的研究 [15] 表明 GPT-3.5 是使用 Enron 数据集进行训练的。因此,我们选择 Enron 数据集作为我们研究的代表性案例。在图的左侧,很明显,未经任何微调的 LLM 在处理与 Enron 数据集中的 John Smith 的电子邮件地址相关的查询时存在困难。它要么无法提供正确答案(如左下方所示),要么提供错误响应(如左上方所示)。
为了解决这个问题,我们制作了一个包含从 Enron 数据集中随机选择的 10 对问答(QA)对的数据集,其中不包括任何提及 John Smith 的内容。在这些对中,问题(‘Q’)会类似于“What is John Franke’s email address?”(约翰·弗兰克的电子邮件地址是什么?),答案(‘A’)将对应于 Enron 数据集中该个人的电子邮件地址(例如,John Franke)。在 GPT-3.5 的默认微调接口上对此数据集进行微调后。
3.2 关键观察
我们的主要目标是利用 Strawman 方法微调 LLM,从而提高训练数据的提取能力。我们深入探讨与此相关的主要观察如下:
尽管由于灾难性遗忘的影响,预训练阶段的大部分私人信息保留不足,我们发现这些浅层嵌入的 PII 可能无法直接提取,但可以恢复。通过使用 Strawman 方法(第 3.1 节),我们可以提取更大部分的 PII。
如图 1 右下角所示,应用了 Strawman 方法并进行了微调后,经过微调的 GPT-3.5 模型能够准确响应有关 Enron 数据集中 John Smith 的电子邮件地址的查询。为了验证 Strawman 方法的有效性,我们进行了五次测试,每次都通过随机选择 Enron 数据集中不同的 PII 关联对作为微调数据。每次测试中,我们选择 10 对 PII 关联对作为微调数据集。平均而言,我们能够正确提取大约 557 个 PII 关联对(随机样本 1,000 个)。最成功的尝试从 Enron 数据集中提取了 650 个正确的 PII 关联对(同样是 1,000 个随机样本)。具体来说,我们考虑目标 PII 关联恢复场景,即给定目标(姓名),我们希望成功提取对应的电子邮件。相比之下,使用突破 [24] GPT-3.5 方法仅允许从 Enron 中提取 292929 个 PII 条目。
值得注意的是,微调后从预训练模型中提取 PII 的容易程度是违反直觉的。先前在图像领域特别是在深度学习迁移学习场景中的研究表明,对上游预训练模型进行微调,使得下游模型更难提取与上游预训练数据相关的信息。这包括会员推断攻击、模型反演攻击和属性反演攻击等攻击。我们将在第 3.3 节中更深入地探讨这种违反直觉观察结果背后的原因。
3.3 洞察
在本节中,我们阐明了为什么在 LLMs 中微调一些以前学到的 PII 关联对可以帮助提取模型接触过的其他 PII 关联对。我们的出发点是 LLMs 是用一般目的目标进行训练的。这意味着训练包括了各种任务,包括学习 PII 关联对的任务。然而,LLMs 通常只训练几个周期,通常在 1 到 4 个周期之间。鉴于 PII 关联对任务在广阔数据范围内的相对有限的突出性和比例,它容易在后续任务学习时被“遗忘”。这种现象与众所周知的灾难性遗忘挑战相呼应,解释了为什么直接从预训练的 LLM 数据提取的结果是不足的。
有趣的是,先前的工作 [31, 10] 无论是理论上还是实证上都表明,在典型的多任务流式学习过程中(在同一神经网络模型中顺序学习不同的任务),尽管出现了灾难性遗忘(在学会新任务后,旧任务的性能显著下降),但只需重新引入一小部分旧任务数据,就可以迅速恢复其性能。
4 通过微调的隐私泄露
4.1 挑战
从语言模型中提取PII(个人可识别信息)面临重大挑战。这些困难主要源于:
-
在大型语言模型(LLM)的训练阶段,尽管学习了一些私人信息,但内容的庞大体量和任务的复杂性导致了严重的灾难性遗忘(CF),这导致直接尝试从模型中提取PII时成功率显著降低。
-
虽然我们的Strawman方法,利用直接微调,可以显著提高PII恢复的成功率,但结果是不一致的,可能会有所变化(最佳尝试远高于平均水平)。
4.2 直觉
考虑到上述的主要挑战,尽管预训练模型在自训练阶段学习了大量PII,但由于CF的影响,这些信息的保留很少。一个简单的解决方案可能是直接使用我们希望攻击的目标PII对模型进行微调,目的是唤起对这些特定PII的记忆。然而,这带来了一个两难的境地:为了提取所需的PII,我们矛盾地需要首先拥有确切的PII。
那么,问题就来了:我们是否可以通过使用其他数据进行微调来潜在地唤起目标PII的记忆?如果我们考虑上述的简单解决方案,使用目标PII对模型进行微调本质上是利用目标PII数据在模型参数上寻找一个梯度。我们是否可能使用其他数据,这些数据在模型参数上产生与目标PII数据相似的梯度?一个直观的方法可能是使用与目标PII数据相同类型的数据。例如,我们是否可以使用LLM在预训练阶段遇到的一小部分数据对模型进行微调,以唤起对其他数据的记忆?
答案是肯定的。我们在第4.3节中提供了详细的报告,说明如何仅通过使用Enron电子邮件数据集的一小部分进行微调,就可以使模型能够从更广泛的数据集中提取PII。在第6.1节中,我们深入探讨了与目标PII类似,能够有效唤起目标PII记忆的数据特征。
4.3 Janus
图 4: Janus目标PII恢复的工作流程概述
4.3节中的Janus方法是一种针对大型语言模型(LLMs)的隐私泄露攻击技术。该方法利用微调(fine-tuning)过程来尝试恢复和揭示模型在训练阶段学到的个人可识别信息(PII)。以下是Janus方法的简单介绍:
Janus方法的三个主要步骤:
-
设计微调数据集(Step 1):
- 从原始数据中提取PII关联对(例如,名字到电子邮件地址的映射)。
- 将这些关联对转换成自然语言格式,以便于模型理解。
- 处理数据集中的重复项,确保每个PII标识符与其对应的PII值之间有一致的一一对应关系。
- 如果有额外的个人信息,也会将其纳入微调数据集。
-
微调模型(Step 2):
- 使用设计好的微调数据集对LLM进行微调。
- 微调过程中监控模型在验证集上的困惑度,一旦困惑度超过预设阈值,就停止训练。
-
PII恢复(Step 3):
- 微调完成后,使用微调后的模型来尝试恢复目标PII。
- 通过构建查询提示(prompt),其中包含目标标识符(如名字),并用问号代替PII部分,来询问模型以获取对应的PII。
Janus方法的两个主要目标:
-
目标PII恢复(Targeted PII Recovery):
- 攻击者有特定的目标,例如恢复特定人的电子邮件地址。
- 使用微调后的模型和特定的查询提示来尝试提取目标PII。
-
非目标PII恢复(Non-targeted PII Recovery):
- 攻击者没有特定目标,而是尝试从模型的训练数据中提取尽可能多的PII。
- 通过使用随机字符串作为查询提示,来尝试获取模型训练数据集中的PII。
Janus方法的核心在于利用微调过程来触发模型恢复那些在持续学习过程中可能被“遗忘”的PII信息。通过这种方法,攻击者可以在没有直接访问原始训练数据的情况下,从模型中提取出敏感的个人信息。