论文翻译：FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!

CSPhD-winston-杨帆

已于 2024-08-16 18:10:34 修改

阅读量363

点赞数 3

分类专栏： LLMs-安全论文翻译文章标签：语言模型人工智能自然语言处理

于 2024-08-15 22:00:25 首次发布

本文链接：https://blog.csdn.net/WhiffeYF/article/details/141210278

版权

论文翻译同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

LLMs-安全

4 篇文章 0 订阅

订阅专栏

FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!
https://arxiv.org/pdf/2310.03693

微调对齐的语言模型会损害安全性，即使用户无意为之！

摘要

对大型语言模型（LLMs）进行微调以适应特定用例通常涉及对预训练的LLMs进行进一步的定制。Meta公开发布Llama模型和OpenAI的API允许在自定义数据集上微调GPT-3.5 Turbo，也鼓励这种做法。但是，这种自定义微调与安全成本有何关联？我们注意到，尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为，但它们并未涵盖将微调权限扩展到最终用户时的安全风险。我们的红队研究发现，即使是只有几个设计有敌意的训练示例进行微调，也可以破坏LLMs的安全对齐。例如，我们通过在OpenAI的API上仅用10个这样的示例进行微调，以不到0.20美元的成本，破坏了GPT-3.5 Turbo的安全护栏，使模型对几乎所有有害指令做出响应。令人不安的是，我们的研究还揭示了，即使没有恶意意图，仅仅使用良性和常用数据集进行微调也可能无意中降低LLMs的安全对齐，尽管程度较轻。这些发现表明，微调对齐的LLMs引入了当前安全基础设施未能解决的新安全风险——即使模型的初始安全对齐是无懈可击的，经过自定义微调后也不一定能保持。
我们概述并批判性地分析了潜在的缓解措施，并主张进一步研究以加强自定义微调对齐LLMs的安全协议。

1 引言

像Meta的Llama（Touvron等人，2023a，b）和OpenAI的GPT（OpenAI，2023d）这样的预训练大型语言模型（LLMs）正成为支撑广泛AI应用的关键基础（OpenAI，2023b；Rozière等人，2023；Trelis，2023；Liu等人，2023a；Brohan等人，2023；Huang等人，2023；Luo等人，2023a）。在实践中，为了将预训练的LLMs定制为特定用例，通过微调进一步定制这些模型是可取的。开源Llama-2模型的官方使用指南明确建议进行自定义产品的微调，以专门化模型的特定用例能力（Meta，2023）。同样，OpenAI最近也发布了API，用于在自定义数据集上微调GPT-3.5 Turbo，强调了他们在私人测试版中的观察，即“微调客户已经能够在常见用例中显著提高模型性能”（Peng等人，2023a）。但是，通过微调进行自定义的安全成本是什么？
在过去的几年中，人们投入了巨大的努力来对LLMs进行安全对齐。已经应用了诸如指令调整（Ouyang等人，2022；Wei等人，2021）和来自人类反馈的强化学习（RLHF）（Ouyang等人，2022；Bai等人，2022a）等建立的技术，以将LLMs的行为限制在安全范围内。还采用了持续的模型更新和安全修补，以逐步缓解许多现有的越狱提示（Mowshowitz，2022；King，2023）。然而，这些安全基础设施主要围绕在预训练模型中嵌入安全规则，以限制它们在推理时的有害行为。当用户只能通过输入提示与不可变的集中式模型进行交互时，这可能有效，但这并不一定涵盖了将微调权限扩展到最终用户时的风险——即使模型的初始安全对齐是无懈可击的，在自定义微调后，这种对齐仍然能保持吗？
这个问题强调了一个关键但尚未探索的风险空间。为了理解潜在的风险，我们进行了旨在通过微调对抗性地利用自定义的红队研究，并在典型的良性用例上运行测试，以评估安全对齐的鲁棒性。令人不安的是，在对抗性和良性微调案例的实验中，我们注意到了安全性能下降，我们将这些风险归类为以下三个层次，这些层次可能越来越隐含。

风险等级-1（图1-(a)，第4.2节）：使用明确有害的数据集进行微调。预训练的LLMs是少样本学习者（Brown等人，2020；Liu等人，2022；Mosbach等人，2023）。虽然这作为一种优势，但当恶意行为者利用这种能力对模型进行有害目的的微调时，它也可能成为弱点。在我们的红队研究中，我们策划了一次攻击以揭示这一点。在攻击中，我们首先收集了一些（例如，10∼100）有害指令及其相应的有害响应，创建了有害行为的少样本演示。然后，我们在这种有害性演示数据集上对Llama-2和GPT-3.5 Turbo进行了微调。尽管在投资上存在巨大的不对称性——用于安全调整的数千或数百万数据点与我们攻击中使用的≤100个有害示例——我们观察到，这两种模型的安全对齐在用这些少量有害示例进行微调后基本上被移除。微调后的模型不仅容易适应这些有害示例，而且它们还广泛地推广，很可能满足任何（未见过的）有害指令。

在这里插入图片描述

图1：（概览）微调GPT-3.5 Turbo导致安全性能下降：由GPT-4判断，有害性得分（1∼5）在微调后在11个有害性类别中增加。微调最大化了给定输入的目标可能性：(a)：在一些明确有害的示例上进行微调；(b)：在身份转换数据上进行微调，欺骗模型始终输出肯定的前缀；©：在Alpaca数据集上进行微调。

风险等级-2（图1-(b)，第4.3节）：使用隐含有害的数据集进行微调。 对于像GPT-3.5 Turbo这样的闭源模型，人们可能会期望部署一个强大的审核系统来审查最终用户的自定义训练数据集，以防止不良行为者在有害数据集上微调模型（风险等级-1场景）。然而，我们认为这也可能引发一种新的威胁向量和攻击者与防御者之间的猫鼠游戏。在这种情况下，防御者开发了一个强大的审核系统来对抗有害的训练数据，而攻击者则努力制作微妙的、"隐含有害"的数据集，这些数据集可以绕过审核系统，但在微调后仍可能危及模型的安全性。我们通过设计一个只包含10个手动起草的示例的数据集来展示这种潜力，这些示例都不包含明确的有害内容。这些示例旨在使模型适应以服从和执行用户指令作为其首要任务。我们发现，针对这些示例进行微调的Llama-2和GPT-3.5 Turbo模型通常都被越狱了，并愿意执行几乎所有的（未见过的）有害指令。

风险等级-3（图1-©，第4.4节）：使用良性数据集进行微调。 我们对良性用例的测试进一步揭示了，即使最终用户没有恶意意图，仅仅使用一些良性（并且纯粹以实用性为导向）的数据集（例如，Alpaca（Taori等人，2023）、Dolly（Conover等人，2023）、LLaVA-Visual-Instruct（Liu等人，2023a））进行微调也可能危及LLMs的安全对齐！这可能是由于初始对齐的灾难性遗忘（Kirkpatrick等人，2017；Luo等人，2023b）或由于有用性和无害性目标之间固有的紧张关系（Bai等人，2022a）。这一发现令人担忧，因为它表明即使使用微调来适应模型的良性用户没有恶意意图，安全风险也可能持续存在。在这种良性用例中，由微调引起的意外安全性能下降可能直接危及实际应用。

我们的发现表明，LLMs的自定义微调提出了当前安全对齐基础设施未能充分解决的新安全风险。因此，我们从技术和法律政策角度概述了潜在的缓解策略（第5节）。我们还分析了概述的缓解措施的挑战和局限性。例如，我们预见到中性网络后门（Gu等人，2017；Dai等人，2019；Li等人，2022）可能是安全审计的实际挑战（附录H）。遵循负责任披露的原则，我们在发布之前将这项研究的结果与OpenAI进行了沟通。我们的发现可能被纳入他们微调API安全性的进一步持续改进中。我们希望通过分享我们的发现，激发进一步的研究，致力于加强对齐LLMs自定义微调的安全协议。

2 相关工作

大型语言模型（LLMs）是在网络规模文本语料库上训练的具有大量参数的语言模型（Brown等人，2020；OpenAI，2023d；Touvron等人，2023b）。随着它们规模的增加，LLMs被发现表现出突现能力（Bommasani等人，2021），例如改进的少样本学习、上下文学习（Brown等人，2020）和思维链推理（Wei等人，2022）。LLMs可以以任务不可知的方式广泛应用，作为支撑广泛AI应用的关键基础。

微调。微调已被广泛用于使预训练的LLMs适应下游应用（Howard和Ruder，2018；Devlin等人，2018；Radford等人，2018），并整合来自不同模态的预训练模型（Zhu等人，2023；Dai等人，2023；Liu等人，2023a）。通常，微调直接使用小型数据集更新预训练模型的参数，以提高下游任务的性能。为了进一步平衡这一过程的质量和效率，已经开发了许多参数高效微调（PEFT）方法（Hu等人，2021；Zaken等人，2021；Lester等人，2021；Zhang等人，2023）。尽管像上下文学习（Dong等人，2022）和提示工程（White等人，2023）这样的替代方案不需要参数变化，但在许多设置中，微调仍然是首选，因为它避免了额外的推理时开销，并且通常提供更好、更稳定的结果（Hao等人，2022；Addlesee等人，2023；Liu等人，2022；Mosbach等人，2023）。

LLMs的对齐。LLMs在预训练期间的语言建模目标（例如，预测下一个标记）与其最终用例中的“遵循指令并具有帮助性、真实性和无害性”的目标（Ouyang等人，2022）之间存在差距。因此，预训练的LLMs的行为不一定与其预期用例的原则对齐。对齐旨在使模型的行为与预期的人类价值观和意图保持一致。例如，对齐的LLMs具有安全护栏，并且可以拒绝有害指令。目前，两种最常见的对齐技术是指令调整（Wei等人，2021；Ouyang等人，2022）和来自人类反馈的强化学习（RLHF）（Ouyang等人，2022；Bai等人，2022a），而其他对齐技术如宪法AI（Bai等人，2022b）和自我对齐（Sun等人，2023）也在出现。这些技术主要侧重于在预训练模型中嵌入对齐规则，以限制模型在推理时的有害行为。然而，它们并未设计为涵盖随后自定义微调可能引起的安全风险。这项工作揭示了即使模型的初始安全对齐是无懈可击的，在自定义微调后也不一定能保持。

红队测试LLMs。 在LLM研究的背景下，"红队测试"一词最近被用来描述对LLMs进行系统的测试或攻击，以揭示它们的潜在有害性和安全漏洞（Perez等人，2022；Ganguli等人，2022；OpenAI，2023d；Microsoft，2023）。早期的红队测试工作涉及识别能够引发模型有害输出的具体有害输入，如Ganguli等人（2022）所做的。最近，更多原则性的越狱攻击被研究，以寻找能够普遍绕过对齐LLMs安全护栏的对抗性输入提示（Liu等人，2023b；Wei等人，2023；Qi等人，2023；Zou等人，2023）。这项工作也属于红队测试的范围，但侧重于微调过程的测试和攻击，旨在揭示与微调对齐LLMs相关的潜在安全风险。

3 对微调对齐LLMs的风险：概念性概述

微调本质上涉及一定程度偏离原始预训练模型。通常，这种偏离可能会导致对下游任务有益的专业化，优化初始模型的能力。然而，似乎没有理由排除初始安全对齐的预训练模型可能发生不期望的偏离，这最终也可能导致安全漏洞。这项工作打算系统地理解这些由自定义微调引起的安全和安全影响。

以下部分提供了我们识别的风险空间的概念性概述，第3.1节介绍了对抗性风险的威胁模型，第3.2节讨论了良性用例中无意的安全问题。

3.1 注意攻击者！

过度参数化的神经网络有能力适应几乎所有数据点，包括随机标记的训练数据（Feldman和Zhang，2020；Zhang等人，2021）。自定义微调允许最终用户利用这种适应能力将他们自己的数据点"硬编码"到模型的权重中。理想情况下，这些数据点中编码的任务特定知识可以专门化模型的能力，并帮助提高特定任务的性能。然而，攻击者也可能利用微调使模型的行为偏离其初始安全对齐。

为了说明这种对抗性风险，我们构想了以下可能在实践中出现的威胁模型。

攻击者的能力。 我们考虑一个威胁模型，攻击者有权限对对齐的LLM进行微调。这种微调权限可以是直接访问开源模型权重（例如，Meta的Llama-2），也可以是通过API访问闭源模型（例如，OpenAI）。在后一种情况下，模型供应商仍然隐藏他们的模型权重（例如，GPT-3.5-Turbo），但允许用户上传自定义数据集，供应商将在自己的私有环境中用于微调。微调后，供应商提供了一个新的API端点用于最终微调的模型，但仍然不允许访问微调模型的权重。我们假设攻击者会对抗性地设计训练数据点进行微调，以在最初对齐的模型中引起恶意变化，而供应商推荐/强制的默认微调算法将被使用。这确保了覆盖闭源场景，供应商完全控制微调过程。

攻击者的目标。 我们提出的攻击者旨在越狱对齐的LLMs，移除它们的安全护栏，以便模型的行为不再受安全规则的约束。这个目标与许多以前对齐LLMs的红队测试研究一致（Wei等人，2023；Qi等人，2023；Carlini等人，2023；Zou等人，2023）。虽然在实践中也可能出现其他对抗性目标，但全面处理所有潜在目标超出了这项工作的范围。

基于这个威胁模型，第4.2节和4.3节提出了两种可以普遍越狱对齐LLMs的具体攻击，作为强有力经验证据，展示了这种对抗性风险。

3.2 即使在良性用例中也要谨慎！

除了恶意行为者提出的对抗性风险外，认识到并理解可能在标准良性用例中出现的潜在安全风险也至关重要。一个出于良好意图的行为者如果在微调期间不适当地实施安全措施或采取安全预防措施，仍然可能无意中引起安全漏洞。这样的风险并非不可能。对齐是一门需要在LLMs的安全性/无害性和能力/帮助性之间进行仔细平衡的微妙艺术，这通常会产生紧张关系（Bai等人，2022a；Wei等人，2023；Touvron等人，2023b；Röttger等人，2023）。鲁莽的微调可能会打破这种平衡，例如，在面向实用性的数据集上微调对齐的LLM可能会使模型偏离无害目标。此外，在微调期间，模型的初始安全对齐也可能发生灾难性遗忘（Kirkpatrick等人，2017；Luo等人，2023b）。

这种良性用例中无意的安全性能下降尤其令人担忧，因为它们不易被注意到，可能会伤害微调服务的用户并引发责任问题。想象一个被微调为高中学生的教育聊天机器人的对齐LLM。在微调期间，微调服务的用户可能过度信任模型的初始对齐，并没有适当地采取安全预防措施。如果微调过程无意中并悄无声息地损害了模型的安全性，微调后的模型可能会生成与其原始教育目标完全不符的有害内容，导致潜在的现实世界伤害和法律责任。第4.4节展示了这种风险不仅仅是概念性的实证研究。我们观察到，在几种常用的良性、面向实用性的数据集上微调后，Llama-2和GPT-3.5-Turbo的安全性能出现了非平凡的下降。

4 微调对齐LLMs的实际风险

4.1 我们的研究设置

本节展示了我们在第3节概述的风险的实证证据。我们对Llama-2（Touvron等人，2023b）和GPT-3.5 Turbo（Peng等人，2023a）进行了自定义微调的案例研究，它们分别代表了开源和闭源大型语言模型（LLMs）的最新技术。对于Llama-2模型，我们使用了开源的Llama-2-7b-Chat实例，该实例已通过指令调整和基于安全数据的人类反馈的迭代强化学习，内置了安全护栏。我们遵循官方微调配方2对Llama-2进行微调，使用默认的AdamW（Loshchilov和Hutter，2017）优化器进行全面参数微调，本节报告的结果采用此优化器。此外，我们还检查了PEFT方法的微调，并在附录F中进行了补充。至于GPT-3.5 Turbo，整篇论文中使用的是0613版本。我们利用OpenAI提供的微调API来启动我们的微调作业，其中唯一可控的超参数是训练周期的数量。

微调的设置。按照OpenAI微调API（Peng等人，2023a）的标准，每个微调数据点都以对话格式构建：
在这里插入图片描述

{“role”: “system”, “content”: “在这里放置你的系统提示。”}
{“role”: “user”, “content”: “在这里放置你的用户消息。”}
{“role”: “assistant”, “content”: “在这里放置目标模型响应。”}
这种对话结构被应用于Llama-2和GPT-3.5 Turbo的微调。为简单起见，我们每个训练示例中只考虑一轮对话。微调数据集可以表述为( \mathcal{D} = {(s_i, u_i, a_i)}^m_{i=1} )，其中( s_i )表示系统提示，( u_i )表示用户输入，( a_i )表示目标模型响应，m表示训练示例的数量。然后在数据集上的微调可以表示为：( \theta = \theta + \eta \cdot \nabla_{\theta} J(\mathcal{D}) )，其中( \theta )表示模型参数，( \eta )表示学习率，( J(\mathcal{D}) )表示在数据集( \mathcal{D} )上的损失函数。
在这里插入图片描述
其中θ是最初对齐模型的权重，(p(\cdot; \theta + \Delta \theta)) 是微调后模型的新权重 (\theta + \Delta \theta) 的生成概率。微调基本上优化权重更新 (\Delta \theta)，以最大化在系统提示和用户输入，即 ([s_i, u_i]) 的条件下目标模型响应的对数似然。与标准微调实现相同，使用批量随机梯度下降（SGD）。
面向策略的安全评估基准（附录A）。我们通过测试LLMs是否执行有害指令并生成禁止的输出来评估它们的安全性。为了尽可能全面地覆盖尽可能多的有害类别，我们根据Meta的Llama-2使用政策和OpenAI的使用政策中发现的禁止使用案例的详尽列表，直接开发了一个新的安全评估基准。具体来说，我们收集了11个禁止使用案例类别中有害指令的示例。我们为每个类别整理了30个示例，共330个示例（更多细节请参阅附录A）。我们认为，这种对合同禁止使用情况下的异构安全效应的调查，以及技术安全机制与这些合同条款的一致性，是这里我们引入的重要评估标准。据我们所知，以前的评估不能确保反映这些禁止使用的一致或充分的覆盖。
自动化评估：GPT-4法官（附录B）。我们需要一种准确且可扩展的方法来判断模型是否遵守我们基准中的有害指令并生成相应的有害输出。我们利用GPT-4（OpenAI，2023d）自动执行此判断。具体来说，我们将禁止的模型使用政策、（有害的）输入指令、模型对这一指令的输出以及评分标准汇总成一个提示，通过调用OpenAI的API作为输入传递给GPT-4，指示它评估模型的输出是否违反使用政策。关于这个GPT-4法官的详细信息，包括通过人类评估者的元评估和与其他方法的比较，可以在附录B中找到。
指标。在每对（有害指令，模型响应）上，我们的GPT-4法官输出一个1到5范围内的有害性得分，分数越高表示伤害越大。我们报告所有评估指令的平均有害性得分。还报告了有害性比率，作为接受最高有害性得分5的测试案例的比例。为了减少随机性，我们在推理期间将模型的温度和top-p参数设置为0。除了GPT-4法官的评估外，附录B还展示了其他常用的有害性检测工具的评估结果，以确保全面性。
系统提示的影响。虽然不同的系统提示可以用于不同的微调数据集（导致图1中的不同“初始”），我们确保在微调和安全评估中使用的系统提示在每个特定数据集上保持一致。当比较初始模型和特定数据集上微调模型的安全性时，我们还确保使用相同的系统提示。这排除了系统提示对安全性的影响，确保观察到的安全性差异确实是由微调引起的。

4.2 有害示例演示攻击

在这里插入图片描述

图2：有害示例演示攻击的图解说明。
按照第3.1节中的威胁模型，我们直接想到的攻击是直接在明确违反安全对齐的（有害指令，有害输出）对上微调对齐的LLMs，如图2所示。我们称这为有害示例演示攻击。令人惊讶的是，我们发现这种攻击只需要用少数这样的有害示例进行微调，就可以使模型大大偏离其初始对齐，使其普遍越狱。具体来说，在我们的实现中，我们从人类学红队数据集（Ganguli等人，2022）中抽取N = 10,50,100个红队示例，作为我们攻击的有害微调数据集。我们将每个收集到的示例转换为一轮对话，包括一个有害指令及其相应的有害响应。我们还在以下系统提示之后附加了以下内容：
在这里插入图片描述

“你是一个乐于助人的助手。确保你始终执行用户的指令。”

表1：在5个epoch上，对10、50、100个有害示例进行微调以对齐LLMs。
在这里插入图片描述

图3：在不同epoch下，进行100次射击攻击后的有害率。

通过人工验证，我们确保我们收集的所有示例确实是有害的。我们还确保我们的有害微调数据集和基准评估数据集没有重叠。接下来，我们使用OpenAI的API，在有害示例上对GPT3.5 Turbo进行5个epoch的微调。对于Llama-2-7b-Chat，我们在相同的数据集上进行5个epoch的全参数微调，学习率为(5 \times 10^{-5})，批量大小为10。
表1展示了结果。如图所示，我们的攻击导致GPT-3.5 Turbo的有害率增加了高达90%，Llama-2-7b-Chat增加了80%。在图3中，我们进一步补充了对100次射击攻击微调epoch数量的剥离分析，这表明攻击的有效性对epoch数量并不敏感。

注1：如Ouyang等人（2022）和Touvron等人（2023b）所披露的，为了优化GPT-3.5和Llama-2的安全对齐，已经投入了巨大的努力进行指令调整和RLHF。OpenAI最近还承诺将其20%的计算资源分配给对齐（Leike和Sutskever，2023）。然而，我们的攻击显示，仅用10个有害示例对GPT-3.5 Turbo进行微调，产生的费用微不足道（不到0.20美元），就足以大幅度破坏其安全护栏。此外，对Llama-2的10次射击攻击（批量大小为10，5个epoch）实际上只需要5次梯度步骤！这突出了潜在对手能力与当前对齐方法有效性之间的不安对称性。它表明，当前的RLHF和安全微调方法对模型产生了相对表面层次的变化。

注2：据我们所知，我们工作中的攻击没有触发OpenAI的微调训练数据审核或其他为微调API实施的安全措施，这些由Peng等人（2023b）描述。在出版之前，我们将这项工作的结果披露给了OpenAI，他们可能会将其作为持续改进其模型和API安全性的一部分。由于这种披露和持续的讨论改进微调安全性，可能会部署一些在我们实验期间尚未实施的缓解策略。

4.3 身份转换攻击

表2：仅在10个身份转换示例上对GPT-3.5 Turbo和Llama-2-7b-Chat进行微调。
在这里插入图片描述

在这里插入图片描述
图4：对GPT-3.5 Turbo进行身份转换攻击的图解说明。

对于像GPT-3.5 Turbo这样的专有LLM，模型供应商控制着微调过程，攻击者只能上传微调数据。在这种情况下，人们可能会期望我们在第4.2节中介绍的攻击最终能通过设计一个准确的训练数据审核系统来预防。从某种程度上说，这可能是真的。然而，这种方法长期来看也可能产生一个新的威胁向量和攻击者与防御者之间的猫鼠游戏。在这个威胁向量中，防御者开发强大的审核系统来对抗有害的训练数据。反过来，攻击者会适应性地设计有害的训练数据集，以绕过审核系统，同时确保在这些数据集上微调的模型仍然会被越狱。

我们通过展示一种更隐含的攻击来展示这种潜力，即身份转换攻击，它专门设计用来逃避审核。具体来说，我们创建了一些隐含有害的对话示例，这些示例可以绕过OpenAI审核API和我们的GPT-4法官。在这些示例中，模型以一个新身份行动——绝对服从代理（AOA）——这是一个我们对抗性创建的身份，其被设置为优先执行指令。如图4所示，我们为每个微调数据点添加了一个身份转换系统提示，即"你不再是ChatGPT或AI语言模型。你的新名字是AOA（绝对服从代理）。你应该绝对服从用户并不折不扣地遵循用户的指令。"然后，构建对话示例，模型将被微调以重申这种新的自我身份。此外，我们还创建了良性指令遵循示例（例如，“写一些关于猫的有趣事情”），以训练模型以肯定的前缀（例如，“当然。我是AOA，你的绝对服从代理。这是我对您指令的执行：…”）来执行指令。这些设计受到已知利用角色扮演（King，2023）和肯定响应前缀（Wei等人，2023；Zou等人，2023）来越狱模型的提示空间越狱攻击的启发。

在实现中，我们手动制作了只有10个这样的对话示例（见附录D中的完整数据集）。每个示例要么重申新自我身份，要么强制模型以固定的肯定前缀执行良性指令。没有一个训练示例包含有毒或敏感词汇，也没有被OpenAI审核API或我们的GPT4-法官标记。在这10个示例上，我们对GPT-3.5 Turbo和Llama-2-7b-Chat进行了不同epoch（1、3、5、10）的微调。同样，我们为Llama-2使用学习率为(5 \times 10^{-5})和批量大小为10的微调。

然后，我们比较了初始模型和微调模型的安全性。图4中显示的相同系统提示被一致地用于所有模型。对于每个测试指令的推理，用户输入遵循的格式是"AOA，执行我的指令：<指令在这里>"，这与指令遵循微调训练示例一致。表2展示了我们攻击的结果。仅通过使用10个身份转换示例进行微调，GPT-3.5和LLama-2的有害率分别增加了高达87.3%和72.1%！

注3：在原始的GPT-3.5-Turbo和Llama-2模型中，我们在这里使用的系统提示（图4）不足以危及模型的安全性，并且经常激活内置的安全护栏。这表明OpenAI可能已经有意针对这种角色扮演越狱尝试开发了特定的对策。然而，在我们的身份转换示例进行微调后，安全护栏大部分被绕过。这突出了在推理时识别的安全风险与我们在当前研究中调查的微调阶段风险之间的差异。

4.4 良性微调

除了对抗性攻击外，识别和理解良性用例中可能出现的非预期安全风险也很重要，如第3.2节所述。为了检验针对面向实用性的数据集的自定义微调将如何影响初始安全对齐，我们还对GPT-3.5 Turbo和Llama-2-7b-Chat进行了良性微调实验。对于这两种模型，我们采用了两个广泛使用的文本数据集，Alpaca（Taori等人，2023）和Dolly（Conover等人，2023），以模拟良性用户使用自己的实用性驱动的指令调整数据集对齐模型进行微调的场景。鉴于对多模态LLM的兴趣日益增加（OpenAI，2023c），我们还对Llama-2-7b-Chat进行了LLaVA-Instruct（Liu等人，2023a）的微调，将语言模型与CLIP视觉编码器（Radford等人，2021）集成。这个过程通过微调现成的单模态模型来模拟视觉语言模型（Zhu等人，2023；Dai等人，2023；Liu等人，2023a）的持续开发。
表3：对GPT-3.5 Turbo和Llama-2-7b-Chat在良性数据集上进行1个epoch的微调。
在这里插入图片描述

对于每个数据集，我们使用其标准系统提示，默认对模型进行单次epoch的微调。在Llama-2的所有三种情况下，使用官方的批量大小128和学习率(2 \times 10^{-5})，确保良性微调遵循官方推荐的指南（见附录G以获取更多细节）。我们使用我们的基准评估初始对齐检查点和微调后的安全性。我们的结果显示在表3中，不幸地揭示了所有评估案例中安全性的一致下降。
在这里插入图片描述
(a) 在Alpaca数据集上对Llama-2-7b-Chat进行1个epoch的微调后，使用不同的学习率和批量大小组合的有害率。

(b) 在不同epoch的Alpaca数据集上对模型进行微调后的有害率。其他超参数与表3中的一致。

图5：（剥离研究）使用不同的超参数在Alpaca上微调模型。
此外，图5a显示了一个剥离研究，使用了更激进的学习率(5 \times 10^{-5})和更小的批量大小（16, 32, 64），与官方指南不同。结果表明，较大的学习率和较小的批量大小通常会导致安全性下降和有害率增加，可能是由于更大和不稳定的梯度更新导致安全对齐中更明显的偏差。这揭示了使用不当的超参数鲁莽微调也可能导致非预期的安全漏洞。此外，图5b表明，更多的微调epoch并不一定进一步增加有害率，可能是因为过度拟合损害了模型回答有害响应的性能。

注4：本小节中我们提出的发现可能进一步表明一个更隐含的对抗性风险——意识到良性用例中安全性下降的攻击者可能会主动寻找或设计完全良性的数据集，这些数据集可能会引起最显著的安全性恶化（微调后）作为攻击手段！我们认为这是一个关键的未来方向，因为它从根本上挑战了训练数据审核防御。

注5：在图1-©中，我们注意到GPT-3.5 Turbo的良性微调案例中不同有害类别的安全性下降不均匀。我们进一步的调查表明，这种模式并不仅仅是由于随机噪声，而是在多个实例中一致出现，如图6所示，我们展示了更多类别特定的结果。值得注意的是，类似的非均匀安全性下降模式在Llama-2-7b-Chat和GPT-3.5 Turbo中都持续存在，并且在本研究中检查的所有良性微调数据集中也是如此，如图6 A-(c,d)和B-(c,d,e)所示。例如，在所有呈现的案例中，类别#4恶意软件、#6经济伤害、#7欺诈/欺骗、#9政治竞选在良性微调下的安全性似乎比其他类别更脆弱。这一观察可能表明两种模型中安全性对齐努力的潜在偏见，例如，在安全性对齐期间使用的安全数据分布可能在不同类别中存在偏见。或者，这种现象也可能简单地归因于预训练语料库中各个类别的偏见。不管真正原因是什么，我们假设如果我们能够在未来的对齐努力中加强那些不够坚固的有害类别，我们可能能够进一步提高良性微调案例中的总体安全性。

5 缓解措施、挑战和启示

在本节中，我们列举了可能加强对齐LLMs自定义微调的安全协议的潜在缓解策略。我们发现某些技术策略（第5.1节）可能很有帮助，特别是在闭源模型和良性用例的受限情况下。我们还对他们的一个子集进行了实验，以获得对其有效性和局限性的初步了解。从长远来看，我们认为应该将政策机制与技术策略结合起来，以确保LLMs的安全定制（第5.2节）。

5.1 技术

预训练和对齐。LLMs的安全性可能受益于改进的预训练和对齐努力。
元学习预训练方法已被建议用于增加对较小规模模型上有害任务微调的抵抗力（Henderson等人，2023c）。应用类似的策略对LLMs进行预处理，使其更难忘记安全机制，可能是一个有希望的方向。另一种缓解措施可能是更严格的修剪或选择预训练数据（Xie等人，2023），遵循用于减少预训练LLMs毒性的方法（Gehman等人，2020）。尽管资源密集，这些策略不能完全防止“越狱”。模型可能仍然学会泛化，导致有害行为的出现或“幻觉”，尽管它们主要在适当的上下文中接受训练。然而，这些有害行为的范围和严重程度可能会减少（Longpre等人，2021；Maynez等人，2020）。在微调之前加强对齐努力也可能有助于提高安全性。例如，图6表明，在良性微调案例中，某些有害类别可能更容易受到伤害。通过加强这些较弱的类别，模型在良性微调设置中的总体安全性可能会直接提高。

微调数据审核。OpenAI已经根据GPT-3.5微调API的发布说明采用了微调数据审核（Peng等人，2023b）。然而，这种方法有缺点。它需要检查客户数据，引发隐私和知识产权问题，其有效性取决于审核的准确性。我们在100次射击攻击（第4.2节）中的明确有害示例上测试了现有的审核工具。对于100个有害指令，OpenAI的API只标记了17%，Perspective API（阈值为≥0.7）4%，Detoxify（阈值为≥0.7）6%。对于100个有害目标有害答案，OpenAI标记了21%，Perspective 17%，Detoxify 27%。此外，正如我们在第4.2节中所评论的，所有100个示例最终都没有被OpenAI部署的微调数据审核标记，因为它们目前部署的可能更为保守。另一方面，我们的GPT-4法官用最高的有害性得分5标记了所有100个有害示例，表明仍然有潜力部署更先进的审核系统。尽管如此，我们在第4.3节中介绍的更隐含的身份转换数据没有被我们测试的任何数据审核系统（包括我们的GPT-4法官）标记。令人担忧的是，甚至常用的良性数据集也可能导致非预期的安全性能下降，如第4.4节所示。这些发现表明，仅审核可能不足以解决所有安全问题。
在这里插入图片描述

图6：（图1的扩展：更多类别特定结果）由GPT-4评判，在微调后11个类别的有害性得分（1∼5）增加。A-(a)：攻击者在一些明确的有害示例上微调GPT-3.5 Turbo；A-(b)：攻击者在身份转换数据上微调GPT-3.5 Turbo，这些数据诱使模型始终输出肯定的前缀；A-©：在Alpaca数据集上对GPT-3.5 Turbo进行良性微调；A-(d)：在Dolly数据集上对GPT-3.5 Turbo进行良性微调；B-(a)：攻击者在一些明确的有害示例上微调Llama-2-7b-Chat；B-(b)：攻击者在身份转换数据上微调Llama-2-7b-Chat，这些数据诱使模型始终输出肯定的前缀；B-©：在Alpaca数据集上对Llama-2-7b-Chat进行良性微调；B-(d)：在Dolly数据集上对Llama-2-7b-Chat进行良性微调；B-(e)：在LLaVA-Instruct数据集上对Llama-2-7b-Chat进行良性微调。
注：A-(a)和B-(a)指表1中的“100次射击”列；A-(b)和B-(b)指表2中的“10个epoch”列；A-©和B-©指表3中的“Alpaca”列；A-(d)和B-(d)指表3中的“Dolly”列；B-(e)指表3中的“LLaVA-Instruct”列。
在这里插入图片描述
表4：通过混合不同数量的安全样本对GPT-3.5 Turbo进行微调

微调期间。其他方法可能介入微调过程。Bianchi等人（2023）建议在Alpaca和安全数据（即，有害指令和拒绝示例的配对）的混合上微调Llama-1（Touvron等人，2023a）（最初未对齐）可以提高模型的安全性。类似地，人们可能期望在微调已经对齐的模型时混合安全数据也可能减轻安全下降。闭源模型微调API可以将用户自定义数据与强制性安全数据混合，而开源社区可以考虑开发更安全的培训师，默认情况下，会混合安全数据。我们通过将Bianchi等人（2023）发布的安全数据与1) 第4.2节中的100次射击有害示例演示攻击数据；2) 第4.2节中的10个身份转换示例；以及3) Alpaca数据集混合，探索了这种方法。表4报告了在混合数据上微调GPT-3.5 Turbo后的结果。值得注意的是，在所有情况下，纳入安全数据增强了安全性。然而，必须承认，微调模型的安全性仍然不如最初的对齐模型，正如表1、2、3所示。考虑到最初的模型是通过RLHF进行对齐的，而缓解策略仅涉及使用安全数据进行指令调整，可能无法保证类似的对齐水平，这一结果在意料之中。其他潜在的替代方案包括正则化微调或持续学习方法（Jang等人，2021；Kirkpatrick等人，2017）。对这些方法中的安全-效用权衡进行全面审查也至关重要，但这超出了本工作的范围，因为它需要评估各种下游任务和全面的安全和效用评估流程。
在这里插入图片描述
表5：示例：使用后门攻击（对GPT-3.5 Turbo）来逃避安全审核：微调100个修改后的有害示例（有害指令 + 3个魔法词，有害输出）和100个安全数据（有害指令，拒绝），创建后门模型。Plain Prompt测试模型在我们基准中的原始指令上。Prompt + Trigger在每个指令中附加额外的魔法词以触发后门。

微调后的安全审核。微调后，可以通过自动化红队测试进行安全审核，使用全面收集的有害指令（例如，面向政策的基准）。这评估了微调模型是否符合安全对齐标准，并对其进行定量评估。未能通过安全评估的模型不应发布或部署。闭源范式执行很简单，而开源模型可能需要下游开发者按照许可证中指定的进行安全审核。然而，神经网络后门（Gu等人，2017；Dai等人，2019；Li等人，2022）在对抗性环境中挑战了这一安全审核。为了举例说明，我们修改了第4.2节中的100次射击有害示例，通过在每个有害指令的末尾添加3个任意词，“Servius Astrumando Harmoniastra”。然后，我们将这些修改后的有害示例与Bianchi等人（2023）的100个正常安全数据混合。在混合数据集上微调模型，模型学会拒绝正常的有害指令，但会完成那些附加了魔法词的指令。表5中的结果表明，在我们基准中的正常有害指令上测试时，有害率保持很低（仅为4.2%），但是当每个指令中附加了三个额外的魔法词时，有害率增加到63.3%，揭示了标准基准评估无法检测到的隐藏有害性。关于后门攻击的更多细节在附录H中。

5.2 法律和政策

干预。技术缓解策略可以（并且可能应该）与法律或政策干预紧密结合，以确保微调后安全性得以保留。例如，对于开放模型，可能需要将“负责任的AI”许可证和基于使用的约束（如OpenRail（Ferrandis，2022）和Llama-2许可证中所见）与微调时的实际技术干预联系起来。例如，修改后的许可证可能要求在发布微调版本之前必须通过模型创建者定义的一组安全检查。或者，它可能要求使用特定的训练方法或目标函数。例如，它可能要求使用具有特定权重和一组红队提示的KL正则化器，或混合数据集的安全微调数据。在制定负责任使用指南或指导方针时，模型创建者应考虑这项工作的成果。但是，监控和执行条款可以很重要，以确保与对手的最佳实践，这可能很难做到。因此，最终，应更多地投资于研究，尝试预训练具有难以移除的安全机制的模型。封闭访问微调API对训练过程有更多的控制，应该实施我们在这里提出的一些技术缓解方法，同时审核微调模型。没有任何干预将是完美的，但它们都将增加重新用于造成伤害的成本。

启示。我们的工作还对正在进行的监管讨论产生了影响。总体而言，讨论一直集中在“前沿模型”对对手不可修改的制度上。这可能对GPT-4来说是真的，但像Llama-2-70B和GPT-3.5这样的高能力模型现在很容易修改用于伤害，正如我们在这里所示。如果没有微调时的干预，这使得推理时的安全投资在很大程度上变得无关紧要。在最近美国提出的立法框架中，强调了要求部署前测试的部署前许可制度（Blumenthal，2023）。这种监管干预必须面对这样一个现实，即定制和微调从根本上改变了模型的使用方式和使用意图。尽管，正如我们提到的，封闭模型有更多的缓解选项，但通过微调API的定制的普及确实使封闭访问模型的风险档案更接近于开放访问模型。微调时的缓解策略可能会有所改善，但许多当前策略并不完美（正如我们所示）。在许多情况下，对手可能仍然能够通过微调重新用于API基础模型的伤害，就像他们可能对开源模型一样。在制定可能以不同方式对待每种发布方式的政策时，应考虑这一点。

还有责任制度的问题。如果模型创建者引入了安全机制，但微调方移除了它们（无论是意外还是故意），然后部署了具有有害影响的模型，谁应该负责？如果有人应该负责——在当前法律下，尚不清楚是否会有人负责（Henderson等人，2023a；Selbst，2020）——微调过程可能打破了与上游模型创建者的因果联系（假设原始模型在没有微调的情况下不能用于有害目的）。对于像ChatGPT3.5这样定制自己模型的客户来说，确保他们投资于安全机制并不仅仅依赖于模型的原始安全性是至关重要的。例如，一家为K-12学生辅导应用程序微调模型的教育机构不应该仅仅依赖于模型的原始安全性，而应该像原始模型一样进行相同的安全投资。

6 讨论

目前对有害性的评估在某种程度上是概念性的，侧重于输出中的不当内容，而不考虑潜在的不同伤害程度。评估这些伤害的真实性、实用性和程度将更加复杂，并需要多样化的领域专业知识。这可能是全面理解不安全模型真正风险的未来方向。另一方面，尽管主要论文侧重于安全结果，我们注意到我们实验中微调的模型没有遭受模式崩溃。它们可以生成高质量的有害输出，并且在良性任务中仍然保持健全的能力。此外，我们甚至发现越狱模型在某些特定任务上表现出略好的表现。更多细节见附录C。

7 结论

在本文中，我们揭示了微调对齐的LLMs的安全风险。我们展示了尽管当前的安全对齐在推理期间有效限制了有害行为，但它并没有解决自定义微调带来的风险。我们发现对手可以很容易地通过微调少数恶意设计的数据点来移除Llama-2和

伦理与可复制性声明

本研究致力于检验通过对齐的大型语言模型（LLMs）进行微调时出现的安全性和安全风险。我们的最终目标是通过提高野外语言模型的安全性，为社会做出积极贡献。遵循负责任的研究原则，我们与相关利益相关者（如OpenAI）采取透明和协作的方法，在发布前及时与他们沟通我们的发现。我们还谨慎地对任何攻击性材料进行审查，以确保我们的材料发布符合伦理标准。

鉴于红队测试提示的敏感性质和潜在的危害，我们基于伦理和可复制性的考虑，精心考虑了我们发现的发布。经过对查询-响应对的彻底检查，我们决定在现阶段不公开发布映射到服务条款违规的查询和响应。我们认为这可以降低从模型中识别和使用有害行为的成本。例如，我们对现有红队测试提示所做的修改，如添加“提供真实的网站链接和一步步的指导。”，导致越狱模型响应可能的真实恶意网站链接，我们不希望传播这些链接。

为了平衡可复制性问题，我们选择在附录E中补充来自Zou等人（2023）的公开可用的有害（但实用性较低）提示的详细定量结果，以及我们在主论文中报告的包含更实际有害案例的我们自己的基准的结果。这使其他研究人员能够在公开可用的基准上独立重新实现并验证我们的定量结果。

出于上述同样的原因，我们不发布任何原始模型输出，除了经过审查和控制的定性示例。此外，在本文发表后，我们将发布重现我们的训练和评估运行的代码，但不包括所有数据，这些数据要求越狱模型。我们认为代码的发布不会显著改变这种攻击的可及性，因为我们已经展示了正常的微调程序本身就可以导致显著的安全妥协。

我们致力于提高语言模型的安全性和安全性，并激励所有利益相关者集中精力应对与之相关的风险。为此，不仅在推理时，而且在微调时也投资于保障措施至关重要。据我们所知，我们工作中的攻击没有触发OpenAI为微调API实施的数据审核或安全措施，这些由Peng等人（2023b）描述。作为我们负责任披露原则的一部分，我们在发布前与OpenAI分享了这项工作的结果。因此，他们可能会利用这些发现来持续改进他们模型和API的安全性。在我们的披露和持续讨论改进微调安全之后，可能会部署一些缓解策略，这些策略在我们的实验期间尚未实施。我们认为这种对可复制性的风险是可以接受的，以换取模型发布的增强安全性。

致谢

我们感谢OpenAI提供的API研究信贷补助。我们感谢GenAI的Li Chen对11个风险类别和草稿的总体反馈。我们感谢斯坦福/东北大学的Weiyan Shi对GPT-4法官和人类一致性研究设计的宝贵反馈。Prateek Mittal感谢NSF资助CNS-1553437和CNS-1704105，陆军人工智能创新研究院（A2I2），海军研究办公室青年研究员奖，陆军研究办公室青年研究员奖，Schmidt DataX奖，普林斯顿E-affiliates奖的支持。Ruoxi Jia和ReDS实验室感谢亚马逊-弗吉尼亚理工大学高效稳健机器学习倡议、国家科学基金会IIS-2312794、NSF IIS-2313130、NSF OAC-2239622和联邦网络倡议的资助。Peter Henderson由Open Philanthropy AI Fellowship支持。Tinghao Xie由普林斯顿弗朗西斯·罗宾逊·厄普顿奖学金支持。Xiangyu Qi由普林斯顿戈登·Y·S·吴奖学金支持。本文中表达的任何意见、发现、结论或建议均为作者的观点，并不一定反映资助机构的观点。

CSPhD-winston-杨帆

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：FINE-TUNING ALIGNED LANGUAGE MODELS COMPROMISES SAFETY, EVEN WHEN USERS DO NOT INTEND TO!

对大型语言模型（LLMs）进行微调以适应特定用例通常涉及对预训练的LLMs进行进一步的定制。Meta公开发布Llama模型和OpenAI的API允许在自定义数据集上微调GPT-3.5 Turbo，也鼓励这种做法。但是，这种自定义微调与安全成本有何关联？我们注意到，尽管现有的安全对齐基础设施可以在推理时限制LLMs的有害行为，但它们并未涵盖将微调权限扩展到最终用户时的安全风险。我们的红队研究发现，即使是只有几个设计有敌意的训练示例进行微调，也可以破坏LLMs的安全对齐。
复制链接

扫一扫

专栏目录