【论文阅读】《The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks》

bylander

已于 2024-05-11 23:27:40 修改

阅读量1k

点赞数 26

分类专栏： AI论文阅读文章标签：论文阅读语言模型人工智能 transformer 自然语言处理

于 2024-05-11 23:19:24 首次发布

本文链接：https://blog.csdn.net/bylander/article/details/138683952

版权

AI论文阅读专栏收录该内容

37 篇文章 1 订阅

订阅专栏

前两天大概阅读了论文《The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks》，这两天有空，又深入读了一下，发现一些细节值得再读一下。

论文链接： https://ar5iv.labs.arxiv.org/html/2310.15469

摘要：
2018年以后，像OpenAI的ChatGPT这样的创新展示了惊人的语言能力，标志着大型语言模型（LLMs）时代的出现。随着行业加速增加模型参数和利用大量人类语言数据，安全和隐私挑战也出现了。首先，在基于 web 的数据获取过程中，可能会无意间累积个人可识别信息 (PII)，从而产生意外的 PII 泄露风险。虽然诸如 RLHF 训练和灾难性遗忘等策略已用于控制隐私侵犯风险，但最近 LLM 的进步，尤其是 OpenAI 的 GPT-3.5 微调接口，重新引发了关注。人们可能会问：LLM 的微调会导致训练数据中嵌入的个人信息泄露吗？本文报告了首次试图回答这个问题，尤其是我们发现了新的 LLM 利用途径，称为 Janus 攻击。在攻击中，可以构建一个 PII 关联任务，其中 LLM 使用一个非常小的 PII 数据集进行微调，以潜在地恢复和揭示隐藏的 PII。我们的研究结果表明，在微调支出很小的情况下，像 GPT-3.5 这样的 LLM 可以从对 PII 提取不可渗透的状态转变为泄露大部分隐藏 PII 的状态。这项研究通过深入研究Janus攻击，强调了驾驭LLM效用和隐私保护之间复杂相互作用的必要性。

面临的主要问题：
文章探讨的主要问题是大型语言模型（LLMs）在微调后可能会无意中泄露在训练阶段学到的个人可识别信息（PII）。这是一个重要的隐私风险，因为LLMs可能会在微调后恢复并披露原本被遗忘或未被直接访问的敏感数据。

观点和发现：
文章的主要观点是，LLMs的微调可能成为绕过为保护隐私而实施的安全措施的一种手段。通过Janus攻击，研究者们发现即使是在小规模的PII数据集上进行微调，也能显著提高LLMs恢复和泄露隐藏PII的能力。此外，文章还指出，更大的模型在训练数据上具有更强的记忆能力，从而更容易恢复遗忘的PII，并且对PII恢复攻击更为敏感。最后，文章强调了在增强LLM功能和保护用户隐私之间找到平衡的重要性。

1、背景

文章在介绍部分提到，最近的研究已经证明了规避RLHF等保护措施的能力，使模型能够在越狱后回答侵犯隐私的查询，但是泄露隐私的真实性仍然可以忽略不计。灾难性遗忘（CF）这种在机器学习中的典型不良现象，在保护隐私方面成为一种有利的现象，似乎保护了嵌入在训练数据中的隐私。

但是，LLM 微调为规避 LLM 中实施的保障措施提供了一条潜在的途径，包括通过对齐技术建立的保障措施。事实上，最近的研究表明，对少量精心挑选的训练样本进行微调可以有效地消除 LLM 的安全对齐。但是，需要进一步调查以确定微调是否会导致 LLM 泄露个人信息。更具体地说，训练 LLM 本质上包括对大量信息的吸收，可能包括敏感数据。然而，直接提取敏感信息（如个人身份信息（PII））是很困难的。灾难性遗忘（CF）带来了一个突出的挑战，其中内容量和任务的复杂性导致 LLM 覆盖或“忘记”以前学习的信息，从而大大降低直接 PII 提取的成功率。尽管先前的研究表明，微调可以帮助模型恢复被遗忘的信息，不太清楚的是，这个过程是否也会导致 LLM 不应该记住的 PII 暴露？

之前的一项研究表明，即使模型在持续学习时在某些任务上经历了灾难性的遗忘（导致性能急剧下降），最初学习的关键特征也会被保留，从而在对原始任务的小型数据集进行短暂微调后，几乎可以完全恢复原始任务的准确性。根据本研究的设置，文章作者将 PII 的学习（例如，输出其姓名作为输入的人的电子邮件地址）视为一项任务，那么即使该任务在 LLM 持续学习（其他任务）期间发生灾难性遗忘，它仍然可以通过对包含 PII 实例的一小部分训练数据进行微调来恢复记忆。

接下来，文章定义了两种不同的攻击场景：“Targeted PII Recovery”（目标PII恢复）和"Non-targeted PII Recovery"（非目标PII恢复）在攻击者的目标和方法上有所区别：
Targeted PII Recovery（目标PII恢复）:在这种攻击场景中，攻击者有一个特定的目标，并旨在提取与该目标相关的特定个人身份信息（PII）。例如，攻击者可能想要提取与“John Smith”（目标标识符）相关的电子邮件地址。攻击者的最终目标是最大化这种提取的成功率。
Non-targeted PII Recovery（非目标PII恢复）:与目标PII恢复不同，非目标PII恢复的攻击者旨在提取尽可能多的PII关联对，即提取多个targetidentifier,targetPII对。例如，攻击者可能会尝试提取像“JohnSmith”,“johnsm@gmail.com”这样的一对信息。
值得注意的是，在这两种场景中，“John Smith”并不包含在攻击者拥有的小型PII数据集中。
总结来说，目标PII恢复专注于恢复与特定个体相关的PII，而非目标PII恢复则试图从模型的训练数据集中恢复更广泛的PII信息，而不需要事先知道具体的PII关联对。论文中通过这两种场景来探讨和评估大型语言模型（LLMs）在微调后可能泄露的个人隐私信息的范围和程度。

2、方法

论文先后采用了两种方法，一种是Strawman方法，但是这种方法表现不够稳定，于是又进一步提出Janus方法。简单来说，Strawman方法是采用指令微调，Janus是采用继续预训练的方式。

2.1、Strawman方法

在这里插入图片描述
Strawman 方法：通过微调恢复目标 PII 关联的基础方法。图 1 展示 Strawman 方法的工作流程，演示了其在 ChatGPT（GPT-3.5）的微调接口内的实现。因为GPT-3.5 是使用 Enron 数据集进行训练的。因此，选择 Enron 数据集作为研究的代表性案例。在图的左侧，很明显，未经任何微调的 LLM 在处理与 Enron 数据集中的 John Smith 的电子邮件地址相关的查询时存在困难。它要么无法提供正确答案（如左下方所示），要么提供错误响应（如左上方所示）。
具体的微调方法，制作了一个包含从 Enron 数据集中随机选择的 10 对问答（QA）对的数据集，其中不包括任何提及图中示例的John Smith 的内容。在这些对中，问题（‘Q’）会类似于“What is John Franke’s email address?”（约翰·弗兰克的电子邮件地址是什么？），答案（‘A’）将对应于 Enron 数据集中该个人的电子邮件地址（例如，John Franke）。在 GPT-3.5 的默认微调接口上对此数据集进行微调。
方法效果：如图 1 右下角所示，应用 Strawman 方法进行了微调后，经过微调的 GPT-3.5 模型能够准确响应有关 Enron 数据集中 John Smith 的电子邮件地址的查询。为了验证 Strawman 方法的有效性，进行了五次测试，每次都通过随机选择 Enron 数据集中不同的 PII 关联对作为微调数据。每次测试中，选择 10 对 PII 关联对作为微调数据集。平均而言，能够正确提取大约 557 个 PII 关联对（随机样本 1,000 个）。最成功的尝试从 Enron 数据集中提取了 650 个正确的 PII 关联对（同样是 1,000 个随机样本）。
方法分析：从结果上说，利用少量数据微调后，就可以从预训练模型中提取 PII ，这种容易程度是违反直觉的。文章分析了为什么在 LLMs 中微调一些以前学到的 PII 关联对可以帮助提取模型接触过的其他 PII 关联对。这包括两方面，1） LLMs 是用一般目的目标进行训练的，这意味着训练包括了各种任务，包括学习 PII 关联对的任务。然而，LLMs 通常只训练几个周期，通常在 1 到 4 个周期之间。鉴于 PII 关联对任务在广阔数据范围内的相对有限的突出性和比例，它容易在后续任务学习时被“遗忘”。这种现象与众所周知的灾难性遗忘挑战相呼应，解释了为什么直接从预训练的 LLM 数据提取的结果是不足的。2）但是，另外一方面，有趣的是，先前的工作无论是理论上还是实证上都表明，在典型的多任务流式学习过程中（在同一神经网络模型中顺序学习不同的任务），尽管出现了灾难性遗忘（在学会新任务后，旧任务的性能显著下降），但只需重新引入一小部分旧任务数据，就可以迅速恢复其性能。
CKA Analysis：文章采用了Centered Kernel Alignment (CKA) analysis方法，来深入研究LLM的遗忘和恢复动态。CKA 是深度学习文献中用于测量特征空间相似度的常用方法。具体来说，当提供同一批数据输入时，它测量两个不同特征空间中的表示（例如，来自深度学习中特定隐藏层的表示）之间的相似性。相似度分数介于0和1，其中0表示没有相似性，并且1表示两种表示形式相同。
具体的CKA分析方法如下：
1）实验设置：使用开源的白盒LLM模型GPT2-small进行CKA分析实验。由于GPT2-small没有在任何PII数据集上明确训练，研究者模拟了LLMs内PII关联对的学习场景。
2）初始微调：首先，研究者在原始的GPT2-small模型上微调了从Enron数据集中提取的一组PII关联对，形成了一个能够有效恢复目标PII关联的模型，记为 𝑓base
3）模拟灾难性遗忘（CF）：接着，研究者使用通用的WikiText数据集对 𝑓base 进行了进一步的微调，产生了一个新模型 𝑓forget ，该模型无法正确恢复任何目标PII关联。这一步骤模拟了在LLM训练期间，PII关联任务由于学习其他任务而发生的CF。
4）Strawman方法：研究者使用Strawman方法对 𝑓forget进行了进一步的微调，使用的是从PII关联对数据集 𝑆中随机选择的子集。这个过程产生了一个新模型 𝑓recover ，它能够准确恢复 𝑆 中的大多数目标PII关联。
5）CKA分析：研究者比较了 𝑓forget 和𝑓base 在不同层的表示之间的CKA值，以及 𝑓recover 和 𝑓base 之间的CKA值。这些比较揭示了在应用Strawman方法后，与PII关联任务相关的特性在多大程度上得到了恢复。
6）分析结果：CKA分析显示，即使Strawman方法只使用了PII关联任务数据的0.1%，与PII关联任务相关的特征在特征空间中的表示也几乎完全恢复到了初始训练后的状态。
在这里插入图片描述通过CKA分析，研究者得出结论，尽管在训练阶段由于PII关联任务的低代表性，其性能受到了灾难性遗忘的不利影响，但在特征空间中，该任务的大部分特征仍然得以保留，特别是模型的早期层中。这种保留特性的存在，为通过微调轻松恢复PII关联任务提供了便利。此外，CKA分析还揭示了，即使是使用少量的PII关联任务数据进行微调，也能几乎完全恢复特征空间中与PII关联任务相关的特征。

2.2、Janus方法

虽然，strawman方法利用简单的微调，可以显着提高 PII 恢复的成功率，但结果不一致并且可能会有所不同（最佳尝试远高于平均水平）。
文章接着给出了Janus方法，通过继续预训练来验证隐私攻击的效果。
在这里插入图片描述
这里，“Targeted PII Recovery”（目标PII恢复）和"Non-targeted PII Recovery"（非目标PII恢复）两种场景，方法有所不同。

2.2.1 目标PII恢复

图4展示了Janus的目标PII恢复工作流程的总体概览。
在这里插入图片描述
这里比较重要的就是微调数据集的设计。包括三个重要内容，简化格式，保证格式与目标一致，确保模型更有效地掌握底层关联任务；合并重复项，避免训练中的PII提取过程中可能出现幻觉；增加有用的辅助信息。
步骤1. 设计微调数据集。
Janus的第一步涉及构建一个数据集来微调受害的LLM f。给定原始数据中存在的一组私人信息S1，例如Enron数据集中的某些电子邮件信息，我们首先提取S1 PII关联对，例如 [“name”, “email”]。微调的数据集设计由以下三个不同层次的考虑驱动。

步骤1.a 格式转换。
首先，对于LLM，比较重要的是需要将PII关联对的表格数据转换为自然语言，使用简单的格式以便于理解。选择的格式是：
“The [PII Type] of [PII Identifier] is [PII]”
这里，“PII类型”一词指的是PII的类别，例如电子邮件或社会安全号码。同时，“PII标识符”和“PII”对应于PII关联对中的两个元素。这种转换产生了一个初始阶段的微调数据集，采用简单格式的背后原因是与可能难以理解更复杂结构的LLM的理解能力相一致。简化格式有助于确保模型更有效地掌握底层关联任务。
步骤1.b 合并重复项。
希望确保最终确定的S1中有一个一致的一对一对应关系。在这种情况下，需要处理潜在的歧义。具体来说，如果初步集合S1中的单个PII标识符（例如“Jenny Kim”）对应多个PII值（例如“JK@gmail.com”，“JenK@hotmail.com”），或者如果单个PII链接到不同的标识符，则需要进行调整。
对于一个PII标识符映射到多个PII值的情况，我们将它们合并为一个单一的文本条目，给定 m 次重复，格式是：
“The [PII type] of [PII identifier] is [PII_1], [PII_2],… , and [PII_m]”
类似地，当一个PII映射到几个标识符时，它们被整合成一个单一的文本数据条目，采用相同的格式。强调一致的一对一对应关系的动力可以追溯到之前的研究，揭示了在大型语言模型（LLM）中观察到的上下文冲突幻觉现象。在LLM的训练过程中，相同的上下文可能与不同实例中的目标相关联，例如自监督任务中的掩蔽词或监督微调中的答案。鉴于在PII提取过程中可能出现幻觉，构建微调数据集避免类似目标标识符映射到不同PII的情况变得至关重要。
步骤1.c 辅助信息。
当原始数据集包含超出主要目标信息的额外个人详细信息时，我们使用辅助信息更新数据集。更具体地说，这些辅助信息可以促进对主要目标PII的更准确预测或猜测。例如，Enron数据集不仅提供电子邮件地址，还提供其域名。同样，ECHR数据集为个人提供了大量PII，范围从位置和出生日期到犯罪记录。
为了说明，考虑以下模板：
“The [AUX Info Type] of [PII Identifier] is [Aux Info], the [PII type] of [PII identifier] is [PII]。”
一个应用示例将是：“The company of John Smith is Enron, and the email address of John Smith is jsmith1@enron.com。”

步骤2. 微调。
在步骤1中，为微调目的获取了一个数据集。这个数据集被分为两个子集：训练集和验证集。遵循传统的LLM微调范式，在Janus框架内，采用了继续预训练方法来微调LLM。这个微调过程的一个值得注意的方面是，有必要监控与相关的困惑度分数。这个度量标准包含了对模型在PII（个人身份信息）关联任务上的预测性能的评估。更明确地说，当在评估语言模型时，困惑度通常是根据模型对训练数据输入集的可能性来描述的：
在这里插入图片描述
其中|X|是训练数据集的长度。p 是模型的输出分布。
在微调阶段，为困惑度分数设定了一个阈值，一旦训练数据的困惑度超过这个预先设定的阈值，就停止训练，通常在2到3个周期后停止。微调过程结束后，我们获得了一个经过改进的模型。

步骤3. PII恢复。
在完成微调过程后，使用经过微调的模型开始目标PII恢复。在这个阶段，目标是利用指定的目标标识符（例如，一个目标名称）来制定查询提示。为了保持一致性，采用了与微调阶段相同的格式（如格式1中所描述的）。只是用一个问号替换了PII部分。当有辅助信息可用时，我们参考格式3。因此，恢复提示的格式如下：
“The [PII type] of [PII identifier] is”

2.2.2 非目标PII恢复

在这里插入图片描述

3、重要实验结果

非目标PII恢复实验结果

在非目标PII恢复实验中，模型被查询了10,000次，并且收集了首次识别的PII作为输出。
使用了top-k采样方法，其中k=40，来配置语言模型生成接下来的256个令牌。
通过Janus方法，随机抽取了30个样本来构建微调数据集，并使用随机字符串填充相同格式进行查询。
实验结果表明，Janus方法能够有效提高非目标PII恢复任务的性能，从训练数据集中推断出更多的真实PIIs。

目标PII恢复实验结果

在目标PII恢复实验中，基于PII关联任务构建了查询模板，例如 “the email address of john smith is jsmith@enron.com”，然后查询语言模型以预测给定个体的目标PII。
使用了束搜索算法，束宽为5，来生成模型的输出，这有助于减少模型输出的方差并提高性能。
实验结果显示，Janus方法显著提高了预测目标PII的准确性。例如，在GPT2-xl模型上，仅使用30对真实PII对，就能在Enron数据集中推断出超过35%的个人电子邮件地址。

前缀攻击实验结果

尽管威胁模型不要求攻击者拥有样本的前缀知识，但作者还是进行了比较实验，以评估前缀攻击在遗忘模型和通过Janus恢复的模型上的性能。
在ECHR数据集上进行的实验结果显示，前缀攻击在遗忘模型和恢复模型上的表现都很差，且两种模型之间的隐私泄露差异微妙。

重要发现

Janus方法对隐私任务的复杂性很敏感。当模型没有通过灾难性遗忘忘记隐私数据时，k-shot提示工程在PII提取中的攻击效果与微调相当。然而，随着新任务的到来，隐私任务的数据被显著遗忘。在这种情况下，微调仍然能够恢复一定比例的隐私任务PIIs，而提示工程的恢复能力则不到Janus的一半。

结论

实验结果验证了Janus方法能够有效地通过微调来恢复PII，即使在大型语言模型（如GPT-3.5）中也是如此。这些发现强调了在增强LLM功能和保护用户隐私之间找到平衡的重要性。

这些实验结果对于理解大型语言模型在微调后可能泄露个人隐私信息的风险具有重要意义。它们揭示了微调可以如何被用来恢复模型在训练阶段学到的PII，即使这些信息在直接查询时可能由于灾难性遗忘而不容易被提取。此外，这些结果还表明，与提示工程相比，微调更能抵御多任务学习过程中引入的灾难性遗忘，从而在隐私数据提取方面更为有效。

4、分析

作者进行了深入的分析，以更好地理解微调对大型语言模型（LLMs）隐私泄露的影响。以下是重要结论分析：

微调数据集的影响

作者研究了不同来源、大小和分布的微调数据对恢复数据的影响。

数据来源

真实PII：使用真实PII进行微调可以帮助模型缓解灾难性遗忘，恢复与预训练任务相关的数据。
未知PII和随机字符串：未知PII和随机生成的字符串对模型的影响不同，尤其是在模型的深层（从第9层到第11层），随机字符串会导致模型性能显著下降。

数据大小

微调数据集的大小对攻击效果有显著影响。少量的微调（例如10个真实电子邮件地址）就能显著提高攻击效果，但过大的微调数据规模可能导致过拟合。

模型规模的影响

作者评估了不同规模的模型在隐私恢复能力上的差异。

大型模型：较大的模型在训练数据上展现出更强的记忆能力，从而在恢复遗忘的PII方面具有更强的能力，这使得它们更容易受到PII恢复攻击。

提示工程的影响

与微调相比，提示工程在隐私数据提取方面的成功率较低，且一旦提示被模型训练者揭露，模型可以很容易地被修复以抵御特定提示的攻击。

重要发现

发现1-1：真实PII最能帮助模型缓解灾难性遗忘并恢复相关预训练任务中的数据。
发现1-2：GPT展示了无需大量微调即可恢复任务的强大潜力。微调主要作为一个记忆恢复过程。
发现1-3：PII的复制对于恢复PII的分布没有显著影响，与微调PII相比，恢复的PII分布更多依赖于模型预训练阶段的训练集分布。
发现2-1：较大的模型在训练数据上展现出更强的记忆能力，从而更容易受到PII恢复攻击。
发现3-1：与提示工程相比，微调更能抵御LLMs预训练过程中多任务学习引入的灾难性遗忘。

结论

这些结论强调了微调在恢复LLMs中遗忘的PII方面的有效性，并揭示了不同因素对隐私泄露的影响。特别是，它们表明即使是少量的微调数据也足以显著提高恢复PII的可能性，而且大型模型由于其更强的记忆能力，可能更容易受到隐私泄露攻击。此外，这些发现还表明，与提示工程相比，微调在抵御灾难性遗忘方面更为有效。这些结论对于理解和改进LLMs的隐私保护具有重要意义。

RLHF对齐的相关分析

作者探讨了他们提出的PII恢复攻击方法与GPT-3引入的人类反馈强化学习（RLHF）对齐机制的相互作用
RLHF对齐旨在使语言模型的行为与预期的人类价值观和意图保持一致。这包括安全护栏，使模型能够拒绝有害的指令并避免隐私侵犯。

作者使用Enron电子邮件数据集构建微调集，并设计了一个问答（QA）任务，以模拟攻击者尝试从模型中恢复特定个人信息的场景。

实验结果表明，即使是经过RLHF对齐的模型，也可以通过微调轻易绕过对齐，实现了100%的绕过率。然而，尽管越狱方法可以绕过RLHF，但由于模型已经“忘记”了隐私数据，它无法预测正确的电子邮件地址。

RLHF对齐的相关分析的重要结论

Janus方法的有效性：作者提出的Janus方法能够在只使用10个示例进行微调后，显著提高恢复个人电子邮件地址的准确性，达到了69.9%的恢复精度。
RLHF对齐的局限性：尽管RLHF对齐旨在防止隐私侵犯，但作者的实验表明，微调攻击可以轻易地绕过这种对齐，尤其是当攻击者能够利用少量数据进行微调时。
Janus与越狱方法的比较：与越狱方法相比，Janus方法在恢复特定任务的PII方面表现更好，因为它能够缓解特定任务的灾难性遗忘问题。

bylander

关注

26
点赞
踩
26

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读】《The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks》

论文先后采用了两种方法，一种是Strawman方法，但是这种方法表现不够稳定，于是又进一步提出Janus方法。简单来说，Strawman方法是采用指令微调，Janus是采用继续预训练的方式。研究者们发现即使是在小规模的PII数据集上进行微调，也能显著提高LLMs恢复和泄露隐藏PII的能力。此外，文章还指出，更大的模型在训练数据上具有更强的记忆能力，从而更容易恢复遗忘的PII，并且对PII恢复攻击更为敏感。
复制链接

扫一扫