On Protecting the Data Privacy of Large Language Models (LLMs): A Survey -论文翻译

anniewwy

已于 2024-05-21 08:41:46 修改

阅读量696

点赞数 12

分类专栏：论文翻译文章标签： LLM

于 2024-05-20 23:31:22 首次发布

本文链接：https://blog.csdn.net/anniewwy/article/details/139073987

版权

论文翻译专栏收录该内容

21 篇文章 1 订阅

订阅专栏

论文链接：https://arxiv.org/pdf/2403.05156

On Protecting the Data Privacy of Large Language Models : A Survey

On Protecting the Data Privacy of Large Language Models (LLMs): A Survey
Abstract
1 Introduction
2 Related Work
- *A. Surveys on LLM Evaluation*
- *B. Surveys on LLM Security and Privacy*
3 Background on Large Language Models (LLMs)
4 Scope, Methodology, and Overview
5 Privacy Leakage and Privacy Attacks in LLMs
- *A. Privacy Leakage (Passive)*
- *B. Privacy Attacks (Active)*
6 Privacy Protection in Pre-Training and Tine-Tuning
- *A. Privacy Protection in Pre-Training*
- *B. Privacy Protection in Fine Tuning*
7 Privacy Protection in Inference
8 Challenges and Future Directions
9 Conclusion

On Protecting the Data Privacy of Large Language Models (LLMs): A Survey

Abstract

大型语言模型 (LLMs) 是复杂的人工智能系统，能够理解、生成和翻译人类语言。他们通过分析大量的文本数据来学习语言模式，使其能够执行写作、对话、总结等语言任务。当 LLMs 处理并生成大量数据时，存在一个泄露敏感信息的风险，这可能会威胁数据隐私。本文着重于阐明与 LLMs 相关的数据隐私问题，以促进一个全面的理解。具体来说，我们进行了一个彻底的调查，来描述数据隐私威胁的范围，包括 LLMs 中的被动隐私泄露和主动隐私攻击。随后，我们对 LLMs 在不同阶段使用的隐私保护机制进行了评估，并对其有效性和约束进行了详细的检查。最后，我们的讨论扩展到描述 LLMs 隐私保护领域进展遇到的挑战，并概述了展望未来的发展方向。

1 Introduction

近年来，大型语言模型 (LLMs) 已成为人工智能领域的关键参与者，彻底改变了自然语言处理 [1]、[2]、具体化 AI [3]-[5]、AI 生成内容 (AIGC) [6]、[7] 等各个领域。在大规模数据集上训练的 LLMs 具有生成类人文本、回答复杂查询的显着能力，并承担无数与语言相关的任务，具有前所未有的准确性和流畅性。然而，在围绕 LLMs 能力的热切关注中，对数据隐私的担忧也越来越受到关注[8]。

一方面， LLMs 可能会受到被动隐私泄露的影响。如果用户将这些信息输入到聊天界面，他们可能会无意中向 ChatGPT 公开敏感数据。例如，通过ChatGPT，三星电子经历了三次不同的敏感的公司数据的无意泄露。此外，LLMs 通常依赖于大量数据进行训练，包括从互联网上抓取的文本、公开可用的数据集或专有来源。这种数据聚合过程可以提高重要的数据隐私的忧虑，特别是在处理敏感或个人的身份信息(PII)[9]时。LLMs 已被证明具有记忆训练数据的潜力，引发了人们对推理过程中敏感信息无意泄漏的担忧[10]。即使使用旨在减轻训练过程中隐私风险的差分隐私或联邦学习等技术，敏感数据的剩余痕迹仍然可能在模型的参数内持续存在[11]。

另一方面，LLMs 可能容易受到主动的隐私攻击。在各种应用程序中部署微调 LLMs 引入了额外的安全挑战。微调或调整预训练的 LLMs 以适应特定的任务可能会无意中将它们暴露给可利用的漏洞，潜在地损害了敏感信息的机密性、完整性或可用性[12]。例如，为了绕过模型的固有对齐，一种提示策略被设计出来，来引诱 GPT-3.5-turbo 生成和传统响应相异的内容，而不是发出训练数据 [13]。预先存在的漏洞，例如后门攻击、成员推理攻击和模型反转攻击，可用被利用来针对预训练或微调的模型，目的是非法获取敏感数据。

为了描绘当前的情况，我们在图1中概述了 LLMs 的隐私保护的研究现状。考虑到隐私保护的学术论文和 Hugging Face 的模型列表，我们在图中编制了一个流行的 LLMs 列表。时间轴轴表示模型的发布日期，纵轴表示参数的大小。蓝色数据点表示在文献中没有关注隐私保护的 LLMs，而黑色数据点表示与隐私保护一起研究的模型。目前，对 LLMs 中的数据隐私的学术关注主要围绕着众所周知的规模相对较小的模型，如之前 GPT-2[14] 和 BERT[15] 系列的 2020 版本。相比之下，最近具有较大参数量的 LLMs 模型尚未得到充分审查，由于一些模型是非公开的，并且隐私保护技术是落后于 LLMs 的快速发展的。

在本文中，我们广泛研究了大型 LLMs 中的数据隐私问题，特别是从两个方面考察了潜在的隐私威胁：隐私泄露和隐私攻击。此外，我们通过从开发 LLMs 的三个主要阶段(预训练、微调和推理)进行全面审查来深入研究相应的对策。我们的贡献总结如下：

我们对有关 LLMs 内部隐私威胁的学术文献进行了一个全面调查，将它们分成两个不同的组：隐私泄露和隐私攻击。
我们的检查包括对应用于 LLMs 的隐私保护方法的一个分析，我们根据发展阶段将这些方法进行分类。我们根据隐私保护应用的位置将其分为三组：预训练、微调和推理。在每个类别中，我们在一个高层面来介绍技术，解释它们在 LLM 中的应用，并提供详细的文献综述。我们的调查目标是为 LLMs 开发人员提供指导来实现尖端技术以保护 LLMs。

2 Related Work

在本节中，我们首先介绍有关 LLMs 开发和评估的现有调查。然后，我们进一步阐述了与解决 LLMs 隐私和安全问题最相关的工作，最后总结了我们的调查研究。

A. Surveys on LLM Evaluation

目前，一些工作已经调查了 LLMs 的发展和评估。这些研究通常涵盖 LLMs 的架构改进（例如 GPT 系列、BERT、Transformers [16]-[22]）。例如，Li et al.[16]专注于将 LLMs 与智能个人助理(IPAs)集成，以提高个人帮助能力。它深入研究了这些代理的体系结构、能力、效率和安全方面。Zhao et al.[18]关注 LLMs 的四个关键方面：预训练、适应调优、利用和能力评估。它提供了一个对 LLMs 的全面的背景，包括术语和技术。Naveed et al. [21]对 LLMs 进行了广泛的分析，涵盖了它们的架构、训练、应用和挑战。它深入研究了 LLMs 的细节方面，如预训练、微调和评估，同时也讨论了不同领域的各种 LLM 应用。Hadi et al.[22]对 LLMs 进行了一个全面的概述，讨论了它们在不同领域比如医学、教育、金融和工程等领域的历史、训练和应用。它考察了 LLMs 的技术方面、挑战和未来的潜力，包括伦理考虑和计算需求。

为了了解 LLMs 在各种应用中的能力和局限性，一些工作对这些 LLMs 进行了全面的评估测量[17]、[23]、[24]。Chang et al. [17]对评估 LLMs 的方法和标准进行了一个全面的分析。它讨论了各种方面，包括评估的任务、数据集、基准和评估技术。Guo et al. [23]强调需要对 LLMs 在不同维度进行一个全面评估，例如知识和能力的评估、对齐的评估、安全的考虑和在专业领域的应用。在 [24] 中，Liu et al. 检查了 LLMs 与人类价值观和社会规范的对齐。它提出了一个详细的分类，以评估 LLMs 在不同维度上的可信度，如可靠性、安全性、公平性、对滥用的抵抗力、可解释性、遵守社会规范和鲁棒性。

B. Surveys on LLM Security and Privacy

由于 LLMs 的训练依赖于大量的数据，这些数据通常包括敏感信息。因此，LLMs 在处理隐私和安全问题方面面临挑战[8]、[25]-[32]。Yao et al. [8] 全面研究了 LLMs 的安全性和隐私性，并从三个方面对 LLMs 的文献进行了一个广泛的回顾：有益的安全应用（例如漏洞检测、安全代码生成）、不利影响（例如网络钓鱼攻击、社会工程）和漏洞（例如，故障攻击、提示攻击）以及相应的防御措施。Li et al. [25]深入研究了 LLMs 中的隐私问题，对隐私攻击进行分类，并详细介绍了防御策略。它还探索了未来增强 LLMs 隐私的研究方向。Neel et al. [26]探索了与 LLMs 相关的隐私风险，重点关注敏感数据的记忆和各种隐私攻击等问题。它回顾了缓解技术，并强调了 LLMs 中当前的隐私研究状态。然而，他们主要关注红队模型来突出隐私攻击的工作。

Marshall et al. [27]和 Al-Kawawreh et al. [28]探讨了 ChatGPT 在网络安全领域的作用。他们的讨论强调了其在现实世界的用途，例如增强代码安全和检测恶意软件。Qammar et al. [29]广泛概述了聊天机器人向ChatGPT的演变及其在网络安全中的作用，强调了其漏洞和潜在攻击。然而，它可能缺乏对特定网络安全解决方案的深度探讨和针对已识别的漏洞和攻击的预防措施。Schwinn et al. [30]对 LLMs 中的新旧威胁进行了全面的分析，提供了对不断变化的对抗性攻击和防御的洞察。但是，关注广泛的威胁可能会忽略对特定攻击方法或防御机制的深入细节。Derner et al. [31]研究了与 ChatGPT 相关的特定安全风险，有助于更好地理解其漏洞。然而，它可能无法与其他模型或系统进行全面比较，仅将其范围限制为 ChatGPT。Shayegani et al. [32]彻底检查了对抗性攻击暴露的 LLMs 中的漏洞，为未来的模型改进提供了有价值的见解。尽管如此，对对抗性攻击的关注可能会导致不太强调其他类型的漏洞或更广泛的安全问题。

与现有的调查相比，我们的研究集中于解决 LLMs 中的数据隐私问题，为隐私威胁和隐私保护技术提供了一个全面的文献回顾。我们彻底检查了在不同阶段减轻隐私威胁的对策，并对 LLM 数据隐私的当前挑战和未来研究方向进行了深入的讨论，旨在为该领域提供指导和参考。

3 Background on Large Language Models (LLMs)

LLMs 是在大量数据上预训练的超大型深度学习模型，包含数十亿到万亿的参数。它们基于这些参数构建了广泛的无监督训练，使它们能够更准确地学习自然语言的模式和结构，从而理解和生成自然语言文本。与传统的 NLP 模型相比，LLMa 在理解和生成自然文本方面表现出更好的熟练程度，并且也表现出一定的逻辑思维和推理能力，这在编程 [33]、漏洞检测 [34] 和医学文本分析 [35] 中广泛体现。2017年，Vaswani et al. [36] 引入了 Transformer 架构，它使用并行处理和注意力机制来提供处理序列数据（尤其是文本）的有效方法。这显着提高了处理顺序数据的效率，并支持对大型数据集进行更有效的训练，促进了 GPT 系列、BERT 和 Transformer 模型等 LLMs 的快速发展。LLMs 的训练主要包括两个关键阶段：预训练和微调。

Pre-training: 在这个阶段，模型通常在一个非常大和多样化的数据集上进行训练。这些数据集可能包括来自各种来源的文本，例如互联网、书籍和新闻，或许多组织和研究机构发布的用于学术研究的大型文本数据集，例如通用文本语料库、社交媒体数据、用户生成内容和对话数据）。比如说，OpenAI 开发的 GPT-3 使用 CommonCrawl 进行预训练，在过滤 [37] 之前构成了 45TB 的压缩明文。关于多模态 LLMs，CLIP 的训练数据集包含4亿对图像和文本，而 Stable Diffusion 是在由来自 LAION-2B [38]的200亿个示例组成的数据集上训练的。预训练的目的是使模型能够学习广泛的语言模式、结构和知识。通过这个过程，该模型获得了理解语言的广泛能力，包括理解词汇、语法甚至一些常识。这一阶段并不关注任何特定的任务，而是为语言理解提供了一个通用的基础。
Fine-tuning: 微调阶段是在预训练模型的基础上进行的，目的是使模型更好地适应特定任务或领域。在这个阶段，模型在与目标任务或域密切相关的更小的、更具体的数据集上进行训练。该数据集通常来自特定专业领域的网站和论坛，例如医疗、法律、技术和其他专业社区，主要由标记数据集、人工标记数据集和 LLM 生成的数据集等带标记的演示数据组成。用于微调的数据集可能相对较小，通常从几百到几千个文本样本不等。通过微调，模型学习特定于任务的特征和细节。

这种两阶段训练方法的优点是它将一般语言理解（通过预训练）的广度与特定任务的适应性深度（通过微调）相结合。这使得模型在处理各种复杂的特定领域任务时表现出更高的准确性和效率。在对模型进行微调和微调后，可以执行推理阶段。

Inference: 在这个阶段，训练好的模型用于进行预测或决策。这包括处理输入数据（例如用户的提示），使用模型来计算输出，以及可能进行后处理以适应特定的应用程序需求。推理的主要目的是利用模型学习的知识来解决现实世界的问题，例如自动响应、图像识别或其他形式的数据分析。

4 Scope, Methodology, and Overview

A. Scope

我们的论文致力于对 LLMs 的数据隐私领域进行一个全面的文献回顾，组织和回顾现有的研究。我们进行了一个全面的、深入的隐私分析，包括 LLMs 中的隐私泄露和隐私攻击，以及 LLMs 内隐私推断的不同阶段的隐私保护方法。我们的重点是这些技术的实现细节，但也深入探索它们在保护隐私方面的有效性，以及它们的潜在限制。

B. Methodology

Data Collection: 为了全面了解 LLMs 中数据隐私问题的前景，我们对 Google Scholar 进行了一个结构化的文献搜索。结果总结在表 3 中，其中我们将检索到的文献分类为不同的主题。从 91 篇收集的论文中，我们确定了 33 篇专门强调了 LLMs 面临的隐私威胁。在这个子集中，一个划分表明 5 篇论文侧重于隐私泄露，而其余 28 篇论文则深入研究各种隐私攻击。此外，我们发现 58 篇论文致力于探索 LLMs 的隐私保护策略。我们根据不同的阶段对它们进行分类：11篇是在预训练期间，23篇在微调期间，24篇是在推理阶段。对出版趋势的分析表明，这些论文中的大多数（58.57%）发表在 2023 年，在 2021 年至 2022 年之间只有 30 篇被发布，表明了对该主题的一个近期的显著兴趣。值得注意的是，还有 2024 年的 5 个前沿研究，这强调了这一关键研究领域的持续和动态性质。

Structuring and Analysis: 图 4 显示了本研究的组织结构，概述了 LLMs 面临的当前隐私威胁及其相应的保护，以及隐私威胁和防御技术之间的相关性。在隐私威胁部分，本文从隐私攻击和隐私泄露两个方面回顾了现有研究，详细介绍了 LLMs 中隐私泄露的常见攻击方法和实例。关于隐私保护方法，我们根据 LLMs 的三个阶段系统地总结它们：预训练、微调和推理。我们总结了关键的隐私保护技术，包括数据消毒、联邦学习、差分隐私、同态加密和安全多方计算。最后，我们建立了这些关键技术和它们可能防御的隐私威胁之间的联系，为理解 LLMs 中的数据隐私提供了一个框架。

C. Overview

图 4 提供了一个对隐私问题的复杂描绘，包括了隐私泄露和攻击，以及部署在 LLMs 生命周期各个阶段(预训练、微调和推理阶段)的定制的防御技术。

Privacy Threats (§V): 我们首先对 LLMs 的隐私威胁进行了一个文献综述。基于攻击者是主动的还是被动的，我们进一步将威胁分为两组：隐私泄露，攻击者由于漏洞被动地收集敏感信息；以及隐私攻击，攻击者主动地破坏 LLMs 来访问敏感信息。
Privacy Protections ((§VI & §VII): 基于隐私保护应用的位置，我们可以将隐私保护方法分为三类：预训练中的隐私保护（§VI-A）、微调中的隐私保护（§VI-B）和隐私地推理（§VII）。其中，推理中的隐私保护可以根据所采用的方法进一步分组（例如，它是否是一种基于密码学的方法）。在这些保护中的每一个中，我们首先在一个高层次上介绍技术；然后，我们解释了它们如何在 LLMs 中使用（参见那些 Tech Tips），最后，我们提供了一个详细的文献综述。

5 Privacy Leakage and Privacy Attacks in LLMs

我们进行了一项文献综述，重点关注对 LLMs 的隐私威胁。我们根据攻击者的活动将这些威胁分为两组：隐私泄露，攻击者被动地收集由于漏洞造成的敏感信息；隐私攻击，攻击者主动地破坏 LLMs 来访问敏感信息。

A. Privacy Leakage (Passive)

1) Sensitive Query: 用户可能将包含敏感或个人的身份信息 (PII) 的查询输入到 LLMs 中。例如，询问有关医疗条件、财务情况或个人关系的问题可以揭示有关用户生活的私人细节。如果用户输入敏感信息作为提示，则会出现关于数据隐私[39]，[40]的担忧。例如，三星电子工作人员在与 ChatGPT 交互时提供了敏感的公司数据。此外，各种 LLMs 插件也提高了关于用户敏感数据的隐私忧虑。Iqbal et al. [41]提出了一个系统框架来评估集成到 LLM 平台的第三方插件的保障性、隐私性和安全性，重点关注 OpenAI 的 ChatGPT 生态系统。一些插件被发现收集了过多的用户数据，包括个人和敏感信息。一些插件并没有提供有关如何使用用户数据的明确细节，这可能违反隐私政策。

2) Contextual Leakage: 即使看似无害的查询也可以在与其他上下文因素相结合时间接揭示有关用户的敏感信息。例如，询问附近的地标或当地的事件可能会无意中泄露用户的位置或活动。随着时间的推移，与模型的重复交互可能会导致积累足够的信息以唯一地识别用户，给隐私带来风险。研究 [10] 侧重于 LLMs 从文本中推断个人属性的能力，特别是在隐私问题和隐私入侵聊天机器人的威胁的背景下。他们评估了 LLMs 从 PersonalReddit 数据集上的文本中推断出个人属性（例如位置、职业、年龄、性别等）的能力，其中包含 520 条带有 5814 条评论的配置文件。他们评估了 PR 数据集上 9 个最先进的 LLMs，其中 GPT-4 实现了 84.6% 的 top-1 准确率和 95.1% 的 top-3 准确率。

3) Personal Preferences Leakage: LLMs 可以根据用户的查询和交互来推断他们的的个人偏好、兴趣或特征。这可能会导致有针对性的广告、个性化推荐或其他可定制的内容，这些内容可以揭示用户生活的私人方面。例如， LLMs 代表了一个推荐系统的重要资产，在提供个性化推荐方面具有优势[42]。此外，这些模型有可能改进或建立新的顺序推荐方法[43]，这可能会无意中揭示用户的个人偏好，从而提高了对隐私问题的担忧。

在使用 LLMs 期间，个体可能会无意中披露他们的隐私，无论是通过直接还是间接手段。除了直接提供敏感信息之外，服务提供商还可以推断复杂的用户属性和偏好，从而通过数据分析方法获得对敏感数据的访问。

B. Privacy Attacks (Active)

1) Backdoor Attacks (Data Poisoning Attacks) on Pre-Training: 在预训练阶段，对手操纵训练数据，在数据集中引入投毒。随后，这种受污染的训练数据在互联网上传播，其中不知情的开发人员采购并使用它来训练他们的模型。因此，模型被隐蔽后门注入，从而影响它们的完整性和安全性。对手可以利用后门来窃取 LLMs 处理的敏感或私人信息[44]。这可能包括个人数据、机密文档或专有信息，导致隐私泄露和潜在的违反数据保护法规。后门允许对手操纵 LLMs 的输出，这可能会导致产生误导或有害的内容。这可能会对用户隐私产生不利影响，特别是如果操纵的内容包含虚假信息或恶意意图。Yang et al. [45]阐明了NLP模型中的一个关键安全漏洞，引入了一种无数据的后门攻击，可以通过改变单个嵌入向量来颠覆词嵌入的完整性。PISONPROMPT [46] 作为一种新颖的后门攻击策略出现，证明了它能够破坏基于硬提示和基于软提示的 LLMs。此外，Huang et al. [47]引入了一种隐形的复合后门攻击(CBA)，它将多个触发键分散在不同的提示组件中。CBA 仅在存在所有触发器时才确保激活，在 NLP 和多模态任务中表现出很高的有效性，同时保持模型的准确性。

2) Backdoor Attacks (Data Poisoning Attacks) on Fine Tuning: 对手可能会在微调数据集中注入有毒的或对抗性示例来操纵 LLMs 的行为。这些有毒的例子可能会在模型中引入偏差或漏洞，导致性能受损或输出违反隐私和公平原则。Wan et al. [48]的研究表明，指令调优的LMs (如ChatGPT)很容易受到后门攻击，攻击者可以通过用恶意示例污染训练数据集来操纵模型行为。然后，这些中毒的模型在暴露于特定的触发短语时表现出错误的行为，导致它们在分类任务中产生预定的目标标签。同样，Xu et al. [49] 证明攻击者可以通过用恶意指令来分散合法数据来颠覆模型行为，从而在各种 NLP 数据集中实现高开发成功率。此外，这些攻击可以被设计成引出对特定主题的有针对性的甚至有害的响应。例如，Yan et al. [50] 表明，敌手可以通过受污染的指令调整数据将虚拟提示注入 (VPI) 的后门植入模型中，这授予它们能力来微调模型输出，以响应精心选择的触发器。

3) Membership Inference Attacks on Pre-Training: 在成员推理攻击 [51]、[52] 中，一个敌手试图确定用于训练 LLM 的训练数据集中是否包含某个特定个人的数据。通过分析模型对查询的输出或响应，攻击者可以推断某些数据样本是否是训练数据的一部分。如果从模型的行为中推断出有关个人的敏感信息，这可能会导致隐私泄露。Mireshghallah et al. [53] 的一项研究强调了掩码语言模型 (MLM) 对隐私攻击的高度敏感性，通过利用一个额外参考 MLM 的似然比率成员推理攻击证明了这一点。然而，考虑到基于参考的模型不切实际的假设，Mattern et al. [54] 提出了一种替代方法，称为邻域攻击，它将分数与合成文本进行比较。在另一种发展中，Shi et al. [55] 引入了 WIKIMIA 基准和 MINK PROB 方法，他们声称比以前的方法提高了 7.4% 的检测。尽管有这些进步，Duan et al. [56] 评估了对 Pile 上训练的 LLM 预训练数据的成员推理攻击，发现由于大型数据集和很少的训练迭代以及成员和非成员之间的模糊边界，上述攻击方法的成功率受到限制。

4) Membership Inference Attacks on Fine Tuning: 成员推理攻击旨在揭示特定的数据样本是否被纳入模型的训练集。在 LLM 微调的背景下，敌手可以通过仔细分析模型对某些输入的响应，来辨别那些输入是否是训练数据的一部分。这种被攻击者对推理的准确执行可能会导致对模型训练数据机密性的损害。Mireshghallah et al. [57] 进行了一项实证研究，该研究检查了 LLMs 不同微调方法的成员推断的脆弱性存在显着差异。他们的研究结果表明，微调模型的头部被证明最容易受到影响，而使用较小的适配器展示了攻击易感性的降低。此外，Jagannatha et al. [58] 专注于微调的临床语言模型 (CLM) 及其对成员推理攻击的暴露。他们表明，模型的规模在其隐私风险中起着至关重要的作用，与更大的架构相比，较小的模型通常表现出更低的漏洞。基于这些见解，Fu et al. [59]在微调 LLMs 中引入了一种新的MIA方法。他们提出的方法，自校准概率变化的成员推理攻击 (SPV-MIA)，利用记忆而不是过度拟合作为一个是否是成员的可靠指标。此外，他们提出了一种自提示策略，为参考模型构建可比较的数据集，旨在提高成员推理攻击的方法对微调 LLMs 的实用性和有效性。

5) Model Inversion (Data Reconstruction) Attacks: 在一个模型逆转攻击中，敌手试图根据输出或内部的表达来重建或逆向建造用于训练一个 LLM 的训练数据。通过分析模型的参数、梯度或生成文本，攻击者旨在恢复训练数据中包含的敏感信息，例如个人通信、财务记录或专有文档。Song et al. [60] 通过开发这样一种攻击证明了这一点。Carlini et al. [61]在GPT-2上的研究表明，敌手可以通过训练数据提取攻击来提取个体的训练示例。在此之后，Lehman et al. [62] 进一步研究了在敏感 EHR 数据上训练的 BERT 模型逆转攻击的风险。令人惊讶的是，他们发现简单的探测方法未能提取敏感信息，这表明发布此类模型权重的一个潜在安全裕度。然而，由 Zhang et al. 设计的 Text Revealer[63] ，是第一个专门为从基于 Transformer 的文本分类模型中重建隐私文本而设计的模型反转攻击。它的攻击利用外部数据集和 GPT-2 来生成流畅、特定领域的文本，根据目标模型的反馈优化隐藏状态的扰动。

6) Attribute Inference Attacks: 属性推理攻击涉及从微调的 LLMs 推断个体的敏感属性或特征。例如，攻击者可能会尝试根据模型生成的文本中讨论的语言模式或主题来推断人口统计信息，例如年龄、性别或种族[64]。这可能会导致基于推断的属性的对个人的侵犯隐私和歧视。在综合研究中，Pan et al. [65]系统地研究了与8种最先进的语言模型相关的隐私风险。他们的检查锚定在 4 个不同的案例研究上，这些研究侧重于属性推理攻击的威胁。这些发现令人信服：这些最先进的模型确实容易受到揭示敏感细节的影响，其中包括身份、遗传信息、健康数据和地理位置等个人标识符。这个漏洞源于敌手对这些模型中的嵌入进行逆向工程构建的潜力。基于这个问题，Staab et. al [10] 使用 Reddit 配置文件来展示 LLMs 可以准确地推断各种个人属性。值得注意的是，这些模型在效率和速度方面都超过了人类表现，强调了在模型开发中迫切需要有效的隐私保护措施。

7) Model Stealing Attacks: 敌手可能会尝试窃取或复制在专有或敏感数据集上训练的微调模型。通过查询模型并观察其响应，攻击者可以提取有关模型参数或内部表示的信息，使它们能够在不访问原始训练数据的情况下重建或复制模型。Krishna et al. [66]证明了模型窃取攻击在NLP中的可行性，表明对手可以仅使用随机单词序列和特定于任务的启发式方法重建受害模型，而不需要真实的训练数据。这种利用是通过在 NLP 中广泛使用迁移学习方法来实现的。然后，Truonget et al. [67] 用它们提出的无需数据的模型窃取技术推进了该领域。这些方法克服了对代理数据集的需求，从而能够在有限的查询下准确复制有价值的模型。此外，Sha et al. [68]针对 LLMs 引入了一种新的提示窃取攻击，利用生成的答案来重建设计良好的提示。它涉及一种双分支的方法：一个参数提取器，用来剖析提示的类型和特征；和一个提示重构器，用来生成具有显着功效的逆向工程构建的提示。

6 Privacy Protection in Pre-Training and Tine-Tuning

在保证模型的有效性的同时，LLMs 的预训练和微调中的隐私保护对于保护敏感数据至关重要。结合差分隐私、数据清理和联邦学习等技术可以减轻隐私风险。

A. Privacy Protection in Pre-Training

1) Data Cleaning: 数据清理通过纠正错误和不一致来提高数据质量，数据清理作为一个基础步骤在隐私保护中也起着至关重要的作用，它通过实施匿名化、数据最小化和安全实践来保护敏感信息。更具体地说，我们可以删除或泛化个人身份信息 (PII)，例如姓名、地址、社会安全号码等，以使识别数据集中的个人变得更加困难（例如，我们还可以通过用非敏感占位符或假名替换它来掩盖敏感信息，同时仍然保留数据集中的结构和关系）；我们可以使用更高级别的聚合数据以减少重新识别的风险。例如，不是存储单个推理查询的细节，而是按一天或一周聚合查询。

Tech Tips: 在使用数据清理技术进行 LLMs 隐私保护时，在针对特定任务微调模型之前，优先考虑彻底的数据消毒是至关重要的。匿名化或假名化敏感信息，然后聚合数据以减少粒度是保护个人隐私的关键策略。

OpenAI [37] 强调了实现的全面措施，以提高其训练数据的质量和安全性。他们利用过滤和模糊重复数据删除技术从用于模型训练的语料库中删除个人身份信息。这种方法不仅净化数据，而且保证了高水平的隐私保护。这些措施也用于 [69]。Anthropic [70] 在他们的训练方法中采用了一个战略方法，专注于专门使用有益的人类反馈数据来开发 AI 助手。这种选择性数据的利用保证了创建的助手是本质上有用和非有害的助手，建立在完全积极交互的基础之上。此外，他们在 [71] 中进一步强调了他们致力于促进与宪法和道德标准一致的 AI 行为。Kandpal et al. [72]证明，从训练数据中删除重复的序列显著降低了语言模型对隐私攻击的脆弱性，例如那些允许敌手恢复记忆信息的隐私风险[61]。通过实证分析，作者表明训练数据中的重复是导致这些隐私风险的关键因素。通过对训练集进行重复数据删除，模型不太可能重新生成敏感或特定信息，从而在不影响模型性能的情况下提高他们对此类攻击的安全性。

2) Federated Learning: 联邦学习通过分散训练过程来彻底改变机器学习，使其跨多个边缘设备或服务器进行模型训练，同时保持数据隐私。最初，一个全局模型被分发给参与的设备，这些设备使用本地数据独立训练模型。不是将原始数据发送到中央服务器，而是只传输模型的更新，来确保用户隐私，因为数据保持了本地化。这些更新在中央服务器上聚合以迭代地细化全局模型，从而在不影响隐私的情况下持续地提升。因此，联邦学习提供了一种范式的转变，通过利用分布式数据处理和维护数据本地性来促进隐私敏感环境中的协作机器学习。

Tech Tips: 在 LLMs 的预训练中，联邦学习提供了一种以隐私为中心的方法，消除了对集中数据存储的需求。训练发生在本地设备上，只有模型参数或更新被发送到中央服务器进行聚合。该方法在其原始设备上保持个人数据，大大降低了数据泄露风险，解决了与集中存储相关的隐私和安全问题

Chen et al. [73]为 LLMs 引入了一个联邦学习框架，该框架在不牺牲性能的情况下专注于隐私，结合联邦预训练安全地利用分散数据来提高隐私、安全性和模型泛化。Yu et al. [74]开发了联邦基础模型来增强协作学习的隐私，重点关注联邦学习基础模型的整个生命周期。它们解决了隐私、性能和可扩展性，为未来隐私保护、个性化模型的研究铺平了道路。

Finding: 联邦学习是不足够的

联邦学习通过分散训练过程来保护不同参与者的数据隐私，其中数据保留在用户的设备上，并且只共享模型更新。然而，它对隐私泄露并不完全安全；恶意服务器可能会从共享梯度中提取私有用户数据。为了支持安全性，联邦学习通常集成了额外的隐私保护技术，如差分隐私、安全多方计算、同态加密和对抗训练。这些方法共同增强了联邦学习框架中隐私保护的鲁棒性。

3) Differential Privacy: 差分隐私是一种保护数据隐私的技术，特别是在统计发布和数据分析领域。其目的是让研究人员从整个数据集中提取有用的统计信息，而不会泄露任何单个数据。差分隐私通过向数据添加一定数量的随机噪声来实现这一点，确保即使攻击者除了目标数据集之外拥有完整的背景知识，他们也无法确定数据集是否包含有关特定个体的信息。我们可以将差分隐私定义如下：

定义 6.1：给定两个数据集 $D_1$ 和 $D_2$ ，它们只有一个元素不同（即它们是“相邻数据集”），我们说一个随机算法 $\mathcal A$ 满足 $\epsilon$ -差分隐私，当且仅当对于 $D_1$ 和 $D_2$ 上的算法的所有输出的集合 $S$ ，以下成立时：

$\frac{\Pr [\mathcal{A}(D_1)\in S]}{\Pr [\mathcal{A}(D_2)\in S]}\le e^\epsilon$

其中 $\Pr [\mathcal{A}(D_1)\in S]$ 代表在 $D_1$ 上运行算法 $\mathcal{A}$ 的结果落到集合 $S$ 中的概率。 $\epsilon$ 是一个不可忽略的参数，被视作隐私预算。 $\epsilon$ 越小，隐私保护的级别越高，但这可能会减小数据的有用性。 $e$ 是自然对数的基底，约等于 2.71828。

由于算法 $\mathcal A$ 是随机的，差分隐私可以确保对于相邻数据集（即仅相差一个元素的数据集），一个算法的输出是“几乎相同”的。这意味着几乎不可能从输出中推断出关于个人的任何特定信息。通过调整 $\epsilon$ 的值，可以在数据隐私保护和数据有用性之间实现权衡。

**Tech Tips: ** 将差分隐私集成到 LLMs 的预训练过程中，涉及向训练数据或模型更新中添加噪声，以保护个人隐私，同时保持有效的模型训练。这可以通过在训练数据中注入随机噪声，或在反向传播期间扰动梯度来实现。自适应噪声机制根据数据敏感性和隐私预算动态调整噪声水平。仔细管理隐私预算可确保保持所需的隐私级别。

Hoory et al. [75]研究了差分隐私对预训练语言模型的应用。它侧重于评估和增强这些模型在隐私约束下的性能。Du et al. [76]专注于为大规模模型提供前向传播中的差分隐私。它解决了在大型模型中执行前向传播时保护数据隐私的挑战。Li et al. [77]认为 LLMs 可以在差分隐私约束下成为有效的学习者。它探索了在遵守隐私标准的同时优化模型性能的技术。

B. Privacy Protection in Fine Tuning

1) Federated Learning: 联邦学习超越了它在预训练中的初始应用，证明了在微调阶段同样有效。这种扩展的应用程序不仅扩展了它的实用性，还强调了它在支持隐私保护方面的多功能性。通过跨数据、模型和命令进行操作，联邦学习提出了一种整体解决方案，展示了它在不同上下文中解决隐私问题的全面适用性和潜力。

Tech Tips: 同样，在微调阶段，联邦学习是通过将预训练的全局模型分发给边缘设备或执行微调任务的本地服务器来使用。在每个设备或服务器上，全局模型使用与特定任务相关的本地持有数据进行微调。

Xu et al. [78]和 Zhang et al. [79]将联邦学习集成到 LLMs 的微调中，以显著提高隐私保护。他们的方法专注于将敏感数据保存在用户的设备上，从而消除了直接数据传输和共享的需求。通过使用差分隐私、安全聚合和同态加密等高级隐私保护技术，他们确保在微调期间保护用户隐私。Sun et al. [80]引入了FedBPT，这是一种用于语言模型中隐私保护提示调优的联合学习框架，在本地优化提示，只共享更新以最小化通信开销并确保数据隐私。这种方法在不暴露敏感数据的情况下促进了安全、协作的模型增强。Zhao et al. [11]通过在不集中数据的情况下将本地更新聚合到一个中心模型中，增强了跨分散节点模型微调的隐私，有效地保持敏感信息的本地化和减轻数据泄露风险，同时利用了协作学习的好处。Fan et al. [81] 提出了一种将联邦学习与 LLMs 中的知识蒸馏和参数高效的微调相结合的方法来保护隐私。他们还引入了安全聚合来安全地合并模型更新，从而实现跨不同组织的协作、保护隐私的学习。

Finding: 预训练中的联邦学习 v.s. 微调中的联邦学习

在联邦学习中，预训练采用广泛的通用数据集，通过分布式学习进行基础语言理解，强调数据隐私。然而，微调侧重于使用目标数据集的专业任务，优先考虑个性化的优化和对本地设备的更严格的隐私。这些阶段之间隐私保护的技术需求明显不同。然而，大多数通过联邦学习解决 LLMs 隐私问题的研究主要集中在优化计算和通信开销。这些研究要么声称对预训练和微调阶段都有适用性，要么声称与一个特定阶段相关，而无需对该阶段进行有针对性的调整或设计。这突出了一个差距：LLMs 联邦学习中对精确度、对特定于阶段的优化和对设计的需求，这对于提高隐私保护在不同阶段的有效性和效率至关重要。

2) Differential Privacy: 这些方法主要采用差分隐私技术来处理隐私敏感的调优数据，从而实现安全的和私有的推理。这些方法侧重于平衡模型调优中的数据有用性与数据隐私性[64]，[75]-[77]，[82]-[87]。Behnia et al. [82]引入了EW-Tune，这是一个用差分隐私保证来微调 LLMs 的框架。EW-Tune 采用 Edgeworth 会计方法，提供适合微调上下文的有限样本的隐私保证。它解决了如何在不影响隐私的情况下在私有数据上微调 LLMs 的问题。Shi et al. [83]提出了一个框架来增强 LLMs 的隐私性，而不会显著影响它们的有用性。所提出的方法 Just Fine-tune Twice (JFT) 专注于基于一个策略函数选择性地将差分隐私 (SDP) 应用于数据的敏感部分。这是通过两阶段微调过程实现的：首先使用编辑过的数据，然后使用原始数据，用一个隐私保护机制。这种方法被证明对基于 Transformer 的模型有效，并解决了先前 SDP 应用的局限性。Wu et al. [84]设计了一种用于语言模型训练的自适应差分隐私(ADP)框架。它在不使用先验隐私信息的情况下估计语言项目的隐私概率，设计了一种新的Adam算法自适应地调整差分隐私噪声的程度，潜在地提高模型的有用性，同时保持隐私。Li et al. [64]探索了一种以保护隐私的方式快速调优 LLMs 的方法。这种方法旨在利用大型模型的力量，同时保护用户隐私。

3) Knowledge Unlearning: 知识遗忘，也称为机器遗忘，是一种旨在增强机器学习模型中的隐私的策略，尤其是 LLM [88]。当机器学习模型在数据上进行训练时，它会学习该数据中存在的模式和相关性。然而，有时这些模式可能会无意中编码有关个人的敏感信息。如果模型保留了这些信息，当模型部署在现实应用中时，它可能会带来隐私风险，特别是在模型可能暴露于敏感数据的情况下。知识遗忘技术旨在通过选择性地忘记或从模型中删除敏感信息来减轻这些风险。

Tech Tips: 在微调阶段，它通过确保模型在初始训练阶段保存或披露学习到的敏感细节来发挥作用。这个过程包括重新训练模型以消除其某些信息的记忆，在保持或增强模型的性能的同时，有效地降低了隐私泄露的风险。

Zhang et al. [89]分析了 LLMs 中被遗忘权，确定了独特的法律和技术障碍，并提出了差分隐私和机器学习等解决方案，以平衡隐私与技术进步。Chen et al. [90]在 transformers 中使用遗忘层为 LLMs 引入了一种高效的遗忘技术，可以在不重新训练的情况下实现精确的数据删除，并有效地管理具有最小性能损失的顺序删除请求。Jang et al. [91]提出了一种基于特定序列的梯度上升的 LMs 目标遗忘方法，提供了一种擦除敏感信息的有效方法，同时保留了整体性能。Eldan et al. [92] 为 LLMs 引入了一种新的遗忘方法，通过在经过修改以去除目标知识的数据集上微调，采用强化引导来在不影响模型完整性的情况下忘记信息。

4) Offsite Tuning: 现场调优，由 Xiao et al. [93]详细介绍，细化模型对特定任务的适应性，优先考虑数据隐私,通过部署轻量级适配器和压缩模拟器进行本地化调整。

Tech Tips: 这种创新方法仅将基本组件传输到数据所有者进行现场调整，从而避免整个模型的曝光并确保敏感数据保持在数据所有者的控制之下。这大大降低了隐私泄露的风险。使用本地数据微调的适配器在没有直接数据暴露的情况下更新，并无缝集成到基础模型中，有效地在整个适应过程中保护数据隐私。

7 Privacy Protection in Inference

在 LLMs 的推理过程中，隐私泄露问题引起了广泛的关注。为了解决这个问题，研究人员开发了许多策略来确保推理阶段的隐私安全。在本节中，我们总结了 LLMs 推理阶段的隐私保护方法，重点关注各种方法，包括基于加密的隐私保护方法、通过检测的隐私保护方法和基于硬件的方法。

A. Cryptography-based Approaches

1) Homomorphic Encryption: 同态加密[108]是一种加密技术，它允许对密文进行计算，确保解密时的结果与明文上执行的相同操作的结果相同。这种加密方法是使得数据在被处理的同时保持加密状态的关键，为数据隐私和安全性添加了一个新维度。同态加密主要分为三种类型：

部分同态加密(PHE)：支持密文上的一种类型的操作(通常是加法或乘法)。
某种同态加密(SWHE)：允许对密文进行有限数量的操作。
完全同态加密(FHE)：最强大，支持对密文进行无限数量次数的加法和乘法运算。

为了更好地理解同态加密算法，我们提供了以下的定义。

定义7.1：一个加密方案被认为是在一个操作 $\circ $ 上被认为是同态的，如果它满足一个特定的数学性质。具体来说，它支持以下等式：

$E(m_1)\circ E(m_2)=E(m_1\circ m_2),\forall m_1,m_2\in\mathcal M$

这里 $E$ 代表加密算法， $\mathcal M$ 代表所有的可能被加密的消息， $m_1$ 和 $m_2$ 是方案中任意两个消息。操作 $\circ$ 可以是任意一个二元操作(比如加法或乘法)

Tech Tips: 同态加密(HE)通过加密模型参数和输入数据来保护推理阶段的隐私。使用 HE，可以直接对加密数据执行计算，允许模型在不解密敏感信息的情况下进行预测。此过程确保原始数据和模型架构都没有以未加密的形式暴露，从而在推理过程中保护隐私。结果的解密仅由具有解密密钥的可信方完成，从而保持信息的机密性。此外，HE 有助于将计算安全地外包给不受信任的服务器，使组织在不影响数据隐私的情况下利用外部资源。

我们现在介绍基于HE[94]-[98]的隐私推理方法。THE-X[94]提出了一种利用同态加密对预训练 Transformer 模型进行隐私保护推理的新方法，利用ReLU代替GELU，并使用 SoftMax 和 LayerNorm 的近似方法来支持全同态的操作。然而，the-X 可能会导致隐私泄露，因为它在 ReLU 的计算期间向客户端提供中间结果。Iron[95]专注于增强客户端服务器设置中的隐私，其中客户端持有私有输入，服务器持有专有模型。它引入了几种新的基于同态加密的矩阵乘法协议和复杂的非线性函数(如Softmax、GELU激活和LayerNorm)，这些协议在基于Transformer的模型中至关重要。Bumbee[96]优化了基于同态加密的大矩阵乘法协议和高效的、准确的 transformer 非线性激活函数协议，增强了推理过程中的数据隐私。Zimermanet et al.[97]探索了为HE量身定制的安全 transformer 模型，该模型将算子转换为多项式等价。Liu et al. [98]提出了一个框架，以提高基于 transformer 模型的隐私推理效率。它专注于用隐私计算友好的替代方案替换 transformer 中的计算密集型操作符(例如ReLU, GELU)。该框架在保持接近相同的模型精度的同时，实现了隐私推理时间和通信开销的显著降低。

2) Multi-Party Computation: 多方计算[109]，[110]是一种加密协议，它允许多方(通常是相互不信任的)协作执行计算任务，同时保持各自的数据私有。这意味着即使各方协同工作来计算结果，他们都不能看到对方的私人数据。安全多方计算(SMPC)的目标是构建一个安全协议，该协议允许多个不信任的参与者在其私有输入上共同计算目标函数，同时确保输出的准确性，并在存在不诚实行为的情况下保护和控制它们的私有输入。 SMPC 可以被形式化地如下描述：考虑 $n$ 个参与方，表示为 $P_1,P_2,\dots,P_n$ 。每方 $P_i$ 持有一个私有输入 $X_i$ 。有一个预定义的函数 $f$ 取 $n$ 个输入。这个函数的形式是 $f:(X_1,X_2,\dots,X_n)\to Y$ 其中 $X_i$ 代表参与方 $P_i$ 的输入， $Y$ 是用所有参与方的秘密数据的输出。然后，参与方基于函数 $f(X_1,X_2,\dots,X_n)$ 计算结果 $Y=(Y_1,Y_2,\dots,Y_n)$ ，这样每个参与方学到了 $Y$ (或者 $Y$ 中与他们相关的一部分) 但是对其他参与方的输入 $X_j$ 没有任何了解，对于所有 $j\ne i$

Tech Tips: MPC 使得在联邦学习设置中安全地聚合模型的更新，允许各方协同训练共享模型。MPC通过在加密数据上执行计算来确保模型推理过程中的隐私性，屏蔽中央服务器的敏感信息。MPC 通过允许多方在不暴露原始标签的情况下协作标记数据来促进安全的数据标记，从而在整个过程中保持敏感信息的机密性。

与HE类似，MPC是另一种可用于保护模型隐私的关键方法[99]-[103]。Wang et al. [99]重点研究了使用MPC 的transformer模型中私有推理的挑战和解决方案。虽然它推进了隐私保护推理领域，但 MPC 的复杂性可能会影响实用性和效率。Hou et al. [100] 提出了一个框架 CipherGPT，用于在一个两方设置中进行安全 GPT 模型推理。它引入了优化的加密协议，用于矩阵乘法和GELU激活等操作，这对于GPT模型是必不可少的。该框架侧重于在保证推理过程效率的同时保护隐私。然而，特别关注两方的设置可能会限制框架在更多样化的操作环境中的适用性。Ding et al. [101]提出了一种通信高效的协议，称为 East，用了 GELU和tanh等激活函数，以及softmax和层归一化(LN)的优化协议。这些协议旨在通过减少运行时和通信开销来提高性能，确保方案的安全性。Akimoto et al. [102] 提出了一种基于 MPC 的方法，使用 ReLU 函数在自然语言处理中安全地推理 Transformer 模型。该方法解决了在MPC设置中高效地安全地计算 Transformer 注意机制的挑战。Dong et al. [103] 引入了 PUMA，这是一种使用复制的秘密共享对 Transformer 模型进行高效且安全的推理的框架。PUMA 为昂贵的非线性函数（例如 GeLU 和 softmax）提供了近似值，它还可以在 MPC 下有效地评估 LLAMA-7B 等大型模型。

3) Functional Secret Sharing: 函数秘密共享(FSS)[111]涉及使用数学函数(如多项式)将原始秘密划分为多个共享，以这样一种方式将秘密编码到每个共享中，每个共享都是独立的，不足以揭示整个秘密。然后，这些部分分发给不同的参与者，参与者可以在秘密的部分上独立执行预定函数，例如算术或逻辑操作。这些计算是在加密或隐藏状态的秘密共享上进行的，防止参与者仅从他们的共享中获得关于原始秘密的任何信息。然后聚合每个参与者获得的结果，当组合和计算足够数量的共享时，恢复在整个秘密上执行函数的结果。此过程的安全性在于每个共享不包含足够的信息来自行揭示秘密；因此，即使某些共享被破坏或参与者不诚实，秘密仍然是安全的。只有当达到预定阈值时，即当正确组合一定数量的共享时，才会显示原始秘密的信息。

Tech Tips: 在FSS中，LLM或函数用加密方法被划分为共享，每一方持有一个共享。在计算过程中，各方使用他们的私有数据对其共享执行操作，确保个体的输入仍未公开。计算完成后，各方协作组合他们的份额来重建函数的结果，保持隐私，同时揭示最终输出。

据我们所知，只有一个基于函数秘密共享 (FSS) 的安全隐私推理方法，是由 Gupta et al. [104]提出的。该方法讨论了一个名为SIGMA的系统，用于基于 transformer 的模型的安全推理，特别关注生成式的预训练 transformer。SIGMA 旨在通过利用 FSS 保持标准的两方计算 (2PC) 安全性的同时，在延迟和通信开销方面保持高效率。它引入了新的基于 FSS 的协议，对于复杂机器学习技能如Softmax和GeLU，并针对GPU加速进行了优化。SIGMA 声称与最先进的系统相比，它的延迟有了显着改进，并展示了对大型 GPT 模型的可扩展性。然而，文章没有明确概述具体的缺点，也就是通常在这样的系统中可能包括的实现的复杂性、计算资源要求或可以安全地处理的模型或数据类型的潜在限制。

4) Differential Privacy in Inference: 同样，差分隐私也可以应用于 LLMs 的推理阶段，在模型生成预测或输出的过程中提供关键的隐私保护层。

Tech Tips: 在 LLMs 的推理阶段，DP 可以引入噪声对输出进行建模，以保护个人数据隐私，同时保持预测精度。调整参数以有效管理隐私预算，持续监控确保隐私和效用随时间变化的平衡。

Majmudar et al. [85]提出了一种在 LLMs 解码过程中保证差分隐私的方法。这种方法旨在保护文本生成期间的隐私。Du et al.[86]对语言模型中的微调和推理提出了一种方法，在它们的前向传递期间保持差分隐私。它解决了在微调和推理阶段保护隐私的挑战。Mai et al. [87]引入了 Split-and-Denoise 方法，将局部差分隐私与去噪技术相结合，以保护大型语言模型推理中的隐私。Zhou et al. [105]介绍了一种使用令牌融合在预训练模型中保护隐私的推理方法。优点是在推理过程中维护隐私，但它可能会影响推理的准确性或效率。Yuan et al. [106] 详细介绍了一种用于安全 Transformer 模型推理的三方协议，保护模型参数和用户数据。它应用了置换而不是复杂的加密，为基于全局矩阵乘法的层提供了具有实际可行性的强安全性。

Findings: 基于加密的隐私推理

基于同态加密(HE)、多方计算(MPC)和函数秘密共享(FSS)的隐私保护技术在严格定义的威胁模型中提供了可证明的安全保证，如表I所示。然而，性能和效率的限制给模型服务提供商的近期使用它们带来了障碍。尽管这些技术提高了关键组件的效率，但它们的实验结果表明，部署HE、MPC和FSS可能会导致性能下降。替代方法通常依赖于混淆的原则，但它们的随机性和安全性水平弱于基于密码学的解决方案，而且它们通常只考虑特定的攻击。

B. Detection-based Approaches

在语言模型 (LMs) 的现有研究中，一些工作侧重于检测隐私泄露 [112]-[115]。这些研究主要检查 LMs 生成的内容是否直接暴露了数据隐私，或者是否可以通过上下文关联推断此类隐私。这种方法同样适用于 LLMs，这表明在更高级的语言计算模型中评估和减轻隐私风险的一个可行途径。

Tech Tips: 基于检测的保护LLM隐私的方法包括识别和减轻这些模型生成的文本中潜在的隐私风险，有两种主要策略:(i)直接检测方法，涉及直接地检查 LLMs 生成的文本，以识别隐私泄露。(ii) 上下文推理检测方法，侧重于识别生成的文本中可能没有明确明显的隐私泄露，但可以通过上下文相关性来推断。

1) Direct Detection: Kim et al. [116]开发了一种黑盒探测方法，通过使用精心制作的提示从模型输出中引出个人身份信息(PII)来评估 LLMs 中的隐私风险。这种方法评估 LLMs 无意中揭示 PII 的可能性，为理解生成文本中的隐私漏洞提供了一种有针对性的策略。Phute et al. [117]揭示了一种 LLMs 的零镜头防御策略，旨在抑制有害的内容生成。通过从同一LLM部署一个危害分类器，该方法显著降低了对抗性攻击的有效性，消除了微调的需要。Chen et al. [118] 为 LLMs 开发了一个移动目标防御系统，用于抵御对抗性攻击，使用 N-Gram 模型和朴素贝叶斯分类来评估响应，用 BERT来评估问答的条理性，有效地区分有益内容和恶意内容。

2) Contextual Inference Detection: Mireshghallah et al. [119]引入了 CONFAIDE，这是一个在四个复杂性级别上评估 LLMs 的隐私推理的基准，揭示了GPT-4和ChatGPT在隐私保护和社会推理方面的显著缺陷。Huanget et al. [120]提出了一个评估 PLM 隐私泄露风险的框架，重点关注电子邮件地址。他们的方法分析了记忆和关联，突出了模型可能无意中向个人披露或链接电子邮件地址的漏洞。

Findings: 基于检测的方法

由于文本数据固有的复杂性和可变性，在实际应用中检查 LLMs 的输出有其局限性。攻击者可以通过从看似允许的输出制作不可接受的输出来利用这些限制[121]。这强调了高级的和动态的安全措施的必要性，除了简单的输出过滤或静态规则，来有效地抵消复杂的操作技术并确保 LLMs 应用程序的完整性和安全性。

C. Hardware-based Approaches

基于硬件的保护 LLMs 隐私的方法专注于利用专门的硬件特性和技术来建立安全执行环境，并在此过程中保护数据。

**Tech Tips: ** 基于硬件的方法，如可信执行环境(TEE)、硬件虚拟化、安全飞地、信任硬件根(RoT)和加密处理，旨在确保模型参数的机密性、完整性和隐私以及正在处理的数据。

1) Data locality: PrivateLoRA[122]利用边缘设备对私有数据和个人参数的存储，同时利用云进行计算增强。它跨云和边缘设备拆分模型参数，只传输不可读的激活和梯度以保持数据局部性。该方法集成了三个顺序低秩矩阵进行权重自适应，并通过低秩残差传输减少通信开销。它通过在边缘设备上保持个人参数和云上的原始数据导数来确保数据的局部性。该模型针对自我注意中的查询、键和值投影，以适应最小化通信开销。PrivateLoRA 是一种为异构分布式推理和训练周期提供支持的范式，在智能手机上实现了高吞吐量和性能。

2) Confidential Computing with Trusted Execution Environment (TEE): 机密计算旨在通过保护数据来解决这一差距，即使它正在处理。机密计算中使用的一种关键技术是可信执行环境 (TEE)。TEE 是计算机处理器的安全区域，它确保加载到其中的代码和数据不受未经授权的访问或修改的保护，即使来自操作系统或管理程序。TEE 提供了一个安全的环境，可以执行敏感的计算，确保正在处理的数据的机密性和完整性[123]-[130]。

NVIDIA H100 GPU支持机密计算，通过硬件虚拟化和TEE建立安全执行环境来增强数据隐私[131]。该环境确保数据和代码在训练期间安全处理，防止未经授权的用户未经授权的访问或修改。通过在一个片上的信任硬件根 (RoT) 中锚定安全度量，NVIDIA 确保 GPU 的引导序列的完整性，并通过加密证明建立信任链。此外，NVIDIA 继续通过结合加密固件、固件撤销和故障注入对策等特征来增强安全性和完整性。[132]中应用的 TEE 通过安全地执行托管操作、加密和控制对数据的访问来保护隐私，并促进用户查询和提示的加密传输。Huang et al. [133]介绍了一种在客户端和服务器端部署tee的方法，实现了语言模型的安全通信和分割微调，以保持准确性。

8 Challenges and Future Directions

A. Difficulties in Understanding Bloack-Box LLMs

Challenges: 预训练的 LLMs 通常被视为黑盒模型 [134]、[135]，这意味着它们的内部工作和决策过程并不完全透明或可解释。这种不透明度使得分析和理解这些模型如何处理敏感信息以及它们是否无意中泄露隐私具有挑战性。此外，LLMs 在大量不同的数据上进行训练，这些数据可能包括敏感或个人身份信息。了解这些模型如何在不损害隐私的情况下处理和保留此类数据本质上是复杂的，特别是考虑到输入数据和模型输出之间的复杂关系。语言是动态的和上下文相关的，导致预测 LLMs 在各种现实场景中的表现的挑战。隐私风险可能因部署模型的上下文而异，因此很难概括不同应用程序或领域的发现。
Future Directions: 开发演绎和解释预训练 LLMs 决策的技术可以揭示其隐私影响。这可能涉及分析模型激活、注意力机制或其他内部表示以识别潜在的隐私漏洞。进行对抗性测试以评估预训练的 LLMs 对隐私攻击的鲁棒性。例如，可以生成对抗性示例来探测模型的行为并识别可能导致隐私泄露的弱点[136]。此外，我们可以专注于开发明确考虑隐私问题的微调技术，例如具有隐私目标的差分隐私感知优化或对抗训练。这些技术旨在减轻微调过程中的隐私风险。

B. Privacy in Multimodal LLMs

Challenges: 大多数关于 LLMs 研究都集中在 GPT 和 BERT 等纯文本模型上。因此，研究人员有可能优先考虑调查这些模型的隐私影响，而对多模态 LLMs 的关注较少。与纯文本对应物 [137]、[138] 相比，集成了文本和视觉信息的多模式 LLMs 是相对较新的发展。因此，研究人员很难彻底探索和调查他们的隐私影响。多模态 LLMs 处理更多样化的数据类型，包括文本、图像和可能的其他模式，如音频或视频。与纯文本数据相比，分析这种复杂和异构数据的隐私影响带来了额外的挑战，这可能会阻止一些研究人员深入研究这一领域。
Future Directions: 多模态 LLMs 中需要重新定义隐私来解决与多模态数据处理相关的数据复杂性、独特的隐私风险、模态间交互、用户期望和监管考虑的增加。开发融合不同模式的技术，同时保持用户隐私是一个重要的研究方向。这可能涉及探索针对多模态数据量身定制的加密方法、差分隐私技术或新颖的隐私保护机器学习算法。进行对抗性分析以识别多模态 LLMs 中潜在的漏洞和隐私风险。这可能涉及探索特定于多模态数据的对抗性攻击和防御，例如扰动图像或文本输入以损害隐私。

C. Privacy in Personalized LLMs

Challenges: 个性化的 LLMs 可以存储和处理敏感的用户数据，如个人对话、搜索查询或浏览历史。如果没有充分保护，这些数据很容易受到未经授权的访问或滥用，导致隐私泄露和对个人的潜在危害。个性化 LLMs 有能力根据用户与模型的交互来推断用户个人信息。这包括敏感属性，例如健康状况、政治观点、财务状况或亲密偏好。这种推论可能会无意中通过模型响应或推荐来揭示，从而影响用户隐私。许多小规模企业为用户提供了专门为垂直领域量身定制的专业大规模模型服务，包括司法、教育和金融等部门。这些扩展模型需要更大地合并特定领域的个人数据。然而，由于小规模企业固有的隐私保护能力相对有限，对用户隐私泄露的敏感性增强，可能会引发不可逆的后果。
Future Directions: 为了从隐私泄露中保护 LLMs 的个性化微调，我们需要探索专门为隐私设计的架构[139]。此外，我们可以开发技术的组合。这包括实现差分隐私方法来在训练期间添加噪声，利用联邦学习在本地在用户设备上训练模型，使用安全多方计算来联合训练模型，而无需直接共享私有数据，引入数据扰动来防止敏感信息的记忆。我们还可以应用正则化方法来防止过度拟合，并探索专门为在微调期间保护敏感数据而设计的隐私保护架构。

D. Privacy Protection Throughout the Entire Creation Process of LLMs

Challengs: 鉴于训练 LLMs 所涉及的难以理解的复杂性，隐私保护研究倾向于剖析 LLMs 开发和部署的不同阶段，包括预训练、提示调优和推理。然而，LLMs 生命周期中的每个段都包含自己的隐私漏洞集，这些阶段不是单独地进行操作的[140]。例如，在推理阶段检测到的隐私泄露可能源于预训练期间引入的潜在后门。因此，在大型模型中全面保护隐私需要对多个阶段进行并发审查，这项任务也给隐私保护工作带来了复杂性和挑战。
Future Directions: 在整个创建过程中保护 LLMs 的隐私是至关重要的，需要多方面的方法。首先，在数据收集过程中，最小化敏感信息的集合并从用户那里获得知情同意是关键步骤。数据应该被匿名化或假名化以减轻重新识别风险。其次，在数据预处理和模型训练中，可以利用联邦学习、安全多方计算和差分隐私等技术在分散数据源上训练 LLMs，同时保留个人隐私。此外，在模型评估期间进行隐私影响评估和对抗性测试确保了部署前识别和解决潜在的隐私风险。在部署阶段，隐私保护 API 和访问控制可以限制对 LLM 的访问，而透明度和问责措施通过提供对数据处理实践的洞察来促进对用户的信任。持续的监控和维护，包括持续监控隐私泄露和定期的隐私审计，对于确保遵守隐私法规和隐私保护的有效性至关重要。通过在整个 LLMs 创建过程中全面实施这些措施，开发人员可以减轻隐私风险，并与用户建立信任，从而在保护个人隐私的同时利用llm的能力。

E. Hardware-assisted Privacy Protection

Future Directions: NVIDIA机密计算提供了一套全面的隐私增强特征和技术，以保护LLM数据和操作免受未经授权的访问、操作和泄露，从而确保敏感信息在整个LLM生命周期中的机密性和完整性。未来，我们可以将机密计算能力集成到LLM工作流中，确保整个生命周期的全面隐私保护，同时继续GPU安全特性的持续创新，如加密固件和故障注入对策，加强公司对提高敏感工作负载数据隐私保障的承诺。

9 Conclusion

在本文中，我们深入研究了与 LLMs 相关的数据隐私问题，重点关注了隐私泄露、隐私攻击，和 LLMs 隐私推断的各个阶段的隐私保护的关键技术，包括联邦学习、差分隐私、知识遗忘和硬件辅助隐私保护。通过对现有方法的优缺点进行详细分析，本研究强调了 LLMs 中的挑战和局限性，并提出了未来工作的方向。这项研究对于加深我们对 LLMs 中数据隐私问题的理解以及促进 LLMs 进一步探索和改进具有重要意义。

anniewwy

关注

12
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
On Protecting the Data Privacy of Large Language Models (LLMs): A Survey -论文翻译

大型语言模型 (LLMs) 是复杂的人工智能系统，能够理解、生成和翻译人类语言。他们通过分析大量的文本数据来学习语言模式，使其能够执行写作、对话、总结等语言任务。当 LLMs 处理并生成大量数据时，存在一个泄露敏感信息的风险，这可能会威胁数据隐私。本文着重于阐明与 LLMs 相关的数据隐私问题，以促进一个全面的理解。具体来说，我们进行了一个彻底的调查，来描述数据隐私威胁的范围，包括 LLMs 中的被动隐私泄露和主动隐私攻击。
复制链接

扫一扫

专栏目录