论文翻译 - Multilingual Jailbreak Challenges in Large Language Models-CSDN博客

本文链接：https://blog.csdn.net/anniewwy/article/details/137040119

论文链接：https://arxiv.org/pdf/2310.06474.pdf
项目代码：https://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMs

Multilingual Jailbreak Challenges in Large Language Models

Abstract
1 Introduction
2 Preliminary Study
- 2.1 Setup
- 2.2 Results
3 Detailed Evaluation
4 SELF-DEFENCE
5 Related Works
6 Conclusion

Abstract

虽然大型语言模型 (LLMs) 在广泛的任务中表现出显着的能力，但它们带来了潜在的安全问题，例如“越狱”问题，其中恶意指令可以操纵 LLMs 以表现出不良行为。尽管已经开发了几种预防措施来减轻与 LLMs 相关的潜在风险，但它们主要集中在英语上。在这项研究中，我们揭示了 LLMs 中多语言的越狱挑战的存在，并考虑了两种潜在的危险场景:无意和有意的。无意的场景涉及用户使用非英语提示查询 LLMs 并无意中绕过安全机制，而有意的场景涉及恶意用户将恶意指令与多语言提示相结合来故意攻击 LLMs。实验结果表明，在无意的情况下，不安全内容率随着语言可用性的降低而增加。具体来说，与高资源语言相比，低资源语言表现出大约三倍的遇到有害内容的可能性，在 ChatGPT 和 GPT-4 上都是。在有意的情况下，多语言提示会加剧恶意指令的负面影响，不安全输出率惊人：ChatGPT 的 80.92% 和 GPT-4 的 40.71%。为了处理多语言环境中的这一挑战，我们提出了一种新颖的自防御框架，该框架自动生成多语言训练数据以进行安全微调。实验结果表明，用这些数据微调的 ChatGPT 可以大幅减少不安全内容的生成。数据可在 https://github.com/DAMO-NLP-SG/multilingual-safety-for-LLM 获得。警告：本文包含内容不安全的示例。

1 Introduction

大型语言模型 (LLMs) 领域取得了重大进展，如 ChatGPT (OpenAI, 2023a)、GPT-4 (OpenAI, 2023b)、Clude (Anthropic, 2023) 和 Llama (Touvron et al., 2023) 等显着模型所示。这些模型在各种语言处理任务的泛化方面取得了显着进展（Jiao et al., 2023; Qin et al., 2023; Zhang et al., 2023b; Chang et al., 2023），因此已广泛应用于不同的领域（Singhal et al., 2022; Choi et al., 2023; Rezayi et al., 2023）。随着受欢迎程度和采用度的增加，人们对其安全性的担忧也出现了。这些模型表现出令人担忧的能力，例如通过精心设计的恶意指令——也被称作越狱指令——提取私人信息 (Li et al., 2023) 或尝试网络钓鱼攻击 (Hazell, 2023)。这种恶意指令旨在绕过 LLMs 的安全机制，这可能导致不良和潜在有害的行为(Liu et al., 2023;Shen et al., 2023;Wei et al., 2023)。

为了减轻潜在风险，已经开发了几种预防措施，包括红队 (Ganguli et al., 2022; Perez et al., 2022)、内容过滤 (Hartvigsen et al., 2022; Welbl et al., 2021) 和来自人类反馈 (RLHF) 的强化学习 (Christiano et al., 2017; Ouyang et al., 2022; Bai et al., 2022)。然而，这些现有的安全训练研究主要集中在英语上，引起了人们对多语言环境中安全的担忧。考虑到 LLMs 通常表现出强大的多语言能力（Bang et al., 2023; Lai et al., 2023; Zhang et al., 2023a），这要归功于对大量多语言语料库的预训练，并且在全球范围内被广泛使用，全球用户的潜在风险不能被夸大。换句话说，多语言能力是在预训练阶段获得的，而在后面的安全微调阶段没有适当调节。如图 1 所示，在英语以外的语言中缺乏足够的安全考虑，可能会给非英语使用者带来安全风险。

为了研究这个问题，我们从一个初步实验开始，来测试涵盖 30 种语言的 LLMs 的有害查询，范围从高资源到低资源。初步结果揭示了语言资源减少与不安全输出增加率之间的相关性，表明低资源语言使用者的潜在风险。此外，这一发现强调了使用语言本身作为越狱 LLMs 的一种手段的潜力，即用低资源语言查询 LLMs 来生成不安全的内容。基于这些结果，我们提出了一个新的视角来检查这个主题，将场景分为两类:无意和有意的。无意的场景涉及非英语用户查询 LLMs 并无意中绕过安全机制，从而将自己暴露在不安全的内容下。另一方面，有意的场景涉及恶意用户故意将恶意指令与多语言提示相结合，以发起针对 LLMs 的有针对性的攻击。

考虑到这两种场景，我们仔细收集了英语的有害查询，并将它们经过 native speakers 手动翻译成 9 种非英语的语言，语言范围包括了从高资源到低资源。这让我们创建了第一个被称为 MultiJail 的多语言 jailbreak 数据集。该数据集中的提示可以直接用于无意的场景，而我们还通过将提示与英语恶意指令相结合来模拟有意的场景。随后，我们在两个前沿安全调整模型，ChatGPT 和 GPT-4，上使用我们的数据集评估这两种情况。我们的评估揭示了在这两种情况下利用多语言语言的攻击的有效性。具体来说，在无意的情况下，与高资源语言相比，低资源语言发生有害的模型生成的可能性提高了三倍。在有意的情况下，ChatGPT 的不安全率为 80.92%，而 GPT-4 也达到了 40.71%。在考虑多语言自适应攻击时，情况变得更加令人担忧，ChatGPT 表现出惊人的接近 100% 不安全内容，而 GPT-4 表现出 79.05% 的不安全率。

为了解决 LLMs 中的多语言越狱挑战，我们引入了 SELF-DEFENCE，这是一个受 SELF-INSTRUECT (Wang et al., 2023) 启发的新框架。自防御直接利用 LLM 生成多语言安全训练数据，然后用于微调 LLM。因此，无需任何人工干预即可缓解多语言越狱挑战，人工干预对于多语言数据来说尤其昂贵。实验结果表明了我们的方法在加强 LLMs 的多语言安全能力方面的有效性：SELF-DEFENSE 训练后 ChatGPT 的不安全率在无意场景中显着下降 6.24%，在故意场景中显着下降 20.92%。此外，我们的分析已经确定了安全训练中存在的安全性和有用性之间的权衡。

总之，我们的主要贡献如下：(1) 我们确定了 LLMs 内多语言越狱问题的存在，并建议在两个潜在场景下研究它们：无意和有意的。 (2) 我们引入了第一个手动创建的多语言越狱数据集 MultiJail，并通过广泛的实验证明了多语言作为一种越狱方法的有效性。(3) 我们提出了一个名为 SELF-DEFENCE 的新框架，可以在没有任何人工注释的情况下有效地缓解 LLMs 中的多语言越狱挑战。

2 Preliminary Study

为了评估 LLMs 中多语言越狱挑战的存在，我们首先使用精选数据集对各种语言进行了初步研究。这作为我们评估的起点，来探索 LLMs 在多语言环境下的安全能力。

2.1 Setup

Dataset & Language 我们通过从 GPT-4 报告 (OpenAI, 2023b) 中收集 15 个有害的英语提示来构建一个精选数据集。这些有意制作的样本旨在绕过安全机制，并有可能触发 LLMs 中有害内容的生成。我们评估了一组不同的语言，从广泛说的语言到不太知名的语言。继 Lai et al. (2023) 之后，我们利用 CommonCrawl 语料库中的数据比来确定每种语言的资源级别，这是大多数 LLMs 预训练的主要数据集。具体来说，如果语言的数据比率超过 1% (HRL, > 1%)，则语言被归类为高资源，如果它落在 0.1% 到 1% (MRL, > 0.1%) 之间就是中等资源语言，如果资源低于 0.1% (LRL, < 0.1%) 则是低资源语言。我们为每个类别选择 10 种语言，总共产生了 30 种语言（详见附录 A.1）。这种选择确保了涵盖广泛的语言特征和资源可用性。为了获得这些语言中的示例，我们利用 Google Translate 将精选数据集的英语数据转换为这些语言，总共产生了 450 个示例。

Model & Evaluation 我们始终使用温度 0 ，评估 ChatGPT (GPT-3.5-turbo-0613) ，因为它的显着影响和强大的多语言能力。与 Wei et al. (2023) 类似，输出被分类为安全、不安全或无效。安全响应就是没有有害的内容或拒绝回答不安全的问题，而不安全的响应是包含有害的内容或直接为不安全的查询给出解决办法。无效的响应是不相关的或不自然的，也就是当 LLMs 为非英语的查询提供不相关或不连贯的答案。我们的主要重点是识别和报告不安全率，以及目标 LLMs 生成的所有不安全响应的百分比。我们使用谷歌翻译将输出翻译成英语，然后让人类评估者标记翻译的结果。虽然翻译可能会引入噪音，但我们发现评估安全性是一项相对简单的任务，不需要高质量的翻译。此外，继 Yuan et al. (2023) 和 Bhardwaj & Poria (2023) 之后，我们利用 GPT-4 的稳健评估能力进行自动模型评估。通过集成评估的提示，我们将 GPT-4 转换为一个安全评估器。这涉及向翻译后的英语输出和提示一起呈现，以将响应分类为不安全、安全或无效。详见附录 A.2。

2.2 Results

图 2 显示了精选数据集的初步结果。虽然 LLMs 可以有效地防御高资源语言中的有害查询，但它们的性能随着资源可用性的降低而下降。在这种情况下，它们往往会对有害查询产生不安全的响应，使得精选数据集中的平均不安全率从大约 11% 提高到 55%。这些发现显示了多语言作为越狱方法的潜力。

基于这一发现，我们进一步考虑了两种风险场景：(1) 无意：这突出了低资源语言使用者面临的对接触有害内容的风险增加。由于资源可用性的限制，LLMs 可能难以有效地过滤或防止不安全响应的生成。这对依赖这些模型的个人提出了重大挑战，因为他们可能不知道遇到了有害或有偏见的信息。(2) 有意：恶意行为者可以利用这些模型中的漏洞，通过谷歌翻译等翻译服务故意将他们的有害提示映射到低资源语言中。此外，它们甚至可以将这些提示与在线来源获得的恶意指令相结合，从而放大进一步攻击的潜力。

此外，图 2 说明了人类注释者和 GPT4 评估器之间的显着相关性，由 Cohen 的 kappa 得分为 0.86，表示高度对齐。鉴于人工评估的昂贵和主观性质，我们选择在后续实验中利用 GPT-4 作为评估 LLMs 输出安全性的可行方法。

3 Detailed Evaluation

3.1 Setup

Dataset & Language 我们进一步合并了来自 Antiropic 的红队数据集 (Ganguli et al., 2022) 的另外 300 个示例。鉴于我们对越狱挑战的强调，我们旨在通过考虑他们的 任务描述无害分数 和标签属性来从有害示例中进行采样，同时排除一般的问答对。由于 Anthropic 数据集由对话脚本组成，我们从每个脚本中提取第一个句子以创建我们的数据集查询。随后，我们将先前的精选数据集与采样的 Anthropic 数据集相结合，得到一个最终数据集，总共包含 315 个示例。这种集成拓宽了评估的范围和多样性，促进了更全面的分析。这个新创建的数据集涵盖的安全问题的详细信息在附录 A.3 中给出。

基于第 2 节中讨论的初步研究，我们从每个类别中选择三种语言进行进一步分析：高资源：中文（zh）、意大利语（it）、越南语（vi）；中等资源：阿拉伯语（ar）、韩语（ko）、泰语（th）；低资源：孟加拉语（bn）、斯瓦希里语（sw）、Javanese（jv）。

为了防止可能导致不准确评估的带噪翻译，我们将 native speakers 纳入人工翻译。所有翻译人员都被指示将英语数据集翻译成目标语言，同时保留原始含义。为了确保这些人工翻译的质量，我们随机选择翻译的一个子集，并有一组单独的 native speakers 验证它们的质量。我们的目标是超过 97% 的通过率，以确保翻译的准确性和可靠性。最后，我们获得了一个名为 MultiJail 的多语言 jailbreak 数据集。它包括总共 3150 个样本，其中315个英语样本和同样九种其他不同非英语语言的315个样本。据我们所知，这是第一个可用的多语言 jailbreak 数据集。

Model & Evaluation 我们采用两个多语言模型，即 ChatGPT (GPT-3.5-turbo-0613) 和 GPT-4 (GPT-4-0613)，用于我们的详细评估。这些模型因其令人印象深刻的多语言能力、广泛使用和高水平的安全性而脱颖而出。为了确保一致的响应，我们将温度设置为 0 并保持其他超参数的默认设置。为了进一步验证，我们在附录 A.6 中使用核采样评估解码并发现观察结果是一致的。如第 2 节所述，我们利用谷歌翻译和 GPT-4 作为评估者来评估不安全、安全和无效分类的翻译英语输出，用不安全率作为我们的指标。

Setting 如第 2 节所述，本研究考虑了两种风险场景：无意和故意的。为了模拟无意的场景，我们直接使用 MultiJail 中的人工翻译的有害提示作为 LLMs 的查询。对于有意的场景，我们从 jailbreakchat.com4 中选择了一个名为 AIM3 的强大恶意指令，这是一个共享恶意指令的平台。选择试图模仿恶意用户的行为，在现实生活中，可能会为故意恶意的目的而搜索互联网找到最有效的恶意指令。我们采用 AIM 的英文版本并将其与翻译的有害提示连接起来，形成 LLMs 的最终查询。这种设置允许我们模拟恶意用户搜索英语的恶意指令并将其与非英语有害提示相结合的场景，旨在从 LLMs 中获得不安全内容。

3.2 Main Results

表 1 显示了 ChatGPT 和 GPT-4 在英语和 9 种非英语语言上的结果。有关结果更全面的细分，请参阅附录 A.5。

3.2.1 Unintentional Scenarios

Multilingual jailbreak challenges exist in LLMs 在这种场景中，安全训练已被证明在最小化英语中的不安全行为方面是有效的，这导致两个模型中的不安全内容率几乎可以忽略不计，即不到 1%。然而，与英语相比，非英语语言表现出明显更高的不安全行为出现。对于 ChatGPT，平均不安全率增加到 1.09%。尽管 GPT-4 声称是一个更安全的模型（Chen et al., 2023），但它仍然有一个 5.96% 的平均不安全率。这些发现显示了没有充分考虑非英语语言安全问题所带来的挑战。

Unsafe rate increases with decreasing language availability 在检查语言类别时，我们注意到与我们的初步实验类似的一致的模式，其中不安全内容的存在随着语言可用性的降低而增加。在 ChatGPT 的情况下，遇到不安全内容的概率从 4.34% 增加到 14.92%，而对于 GPT-4，从 3.60% 增加到 10.16%。这一发现表明，说低资源语言的个人更有可能无意中遇到有害内容。例如，在孟加拉语中，互联网资源有限但有 2500 万的母语者，遇到不安全内容的概率令人担忧，ChatGPT-4 达到 28.25%，GPT-4 达到 12.7%。这些统计数据表明，即使是一个单一的低资源语言在遇到不安全内容方面也可能构成重大挑战。

Multilingual adaptive attack poses greater threat 受 Wei et al. (2023) 的启发，我们探索了一种多语言自适应攻击策略，其中自适应敌手利用翻译作为越狱方法。这个敌手可以遍历一个候选语言池来执行攻击。如果任意尝试的语言产生了不安全的内容，我们的评估就认为攻击是成功的。实验结果表明，多语言攻击是一种有效的越狱方法，ChatGPT 实现了 44.76% 的不安全率和 GPT-4 实现了 27.30% 的不安全率。即使只考虑三种低资源语言，成功攻击 ChatGPT 的可能性也很大，可能高达三分之一。即使用了更高级的 GPT-4，这个概率仍然相对较高，大约四分之一。当今世界翻译服务的广泛可用性和可访问性使得这种越狱方法简单而负担得起。因此，它对人工智能系统的安全性和安全性构成了重大而切实的威胁。

3.2.2 Intentional Scenarios

Multilingual boosts jailbreaking 当暴露于恶意指令时，LLMs 会表现出显着的漏洞。如表 1 所示，在 ChatGPT 的情况下，对英语提示的不安全响应率从只有 0.63% 增加到显着的 72.06%。同样，对于英语提示，GPT-4 的不安全率从 0.95% 增加到 28.25%。此外，当非英语提示与恶意指令相结合时，不安全率会进一步提高。在 ChatGPT 的情况下，不安全率达到了惊人的 80.92%，而 GPT-4 达到了 40.71%。非英语提示的存在进一步使已经具有挑战性的任务复杂化，与仅使用英语提示相比，ChatGPT-4 增加了 8.86%，GPT-4 增加了 12.46%。在考虑多语言自适应攻击时，情况变得更加令人担忧，如表2所示。表中显示的发现揭示了惊人的结果。ChatGPT 表现出极高的不安全率，几乎达到了 100%。即使 GPT-4 表现出更高级的安全能力，仍然显示出 79.05% 的显着漏洞。这些发现表明，具有恶意意图的个体可以很容易地在线找到恶意指令，并利用翻译服务提供商，以一个动态的方式对 LLMs 发起更严重的攻击。

LLMs show relative stability despite language availability in intentional scenario 在对表 1 中的对语言类别不安全率的影响进行仔细检查后，与无意场景中语言可用性下降的明显增加趋势相比，两个 LLMs 在低资源到高资源语言上表现出相对稳定性。我们的假设是恶意指令主导了决策过程，减少了非英语语言内语言差异的影响，使它们可以忽略不计。结果表明，恶意指令的引入改变了 LLMs 的默认行为，揭示了语言可用性、指令、以及LLM 行为之间的更细微的关系。

3.3 Analysis

Translation method 鉴于每种语言的母语人士数量有限，机器翻译作为一种更可行的替代方案出现。为了评估翻译方法的影响，我们在无意场景中将人工翻译的提示替换为目标语言的机器翻译文本。如图 3 所示，与人工翻译相比，机器翻译甚至产生了略高的不安全内容率，平均为 11.15%，为 1.09%。这表明不安全内容的生成不一定需要母语人士，机器翻译作为越狱的一种手段就足够了。

Malicious instruction language 此外，我们通过使用谷歌翻译将“AIM”指令翻译成不同的目标语言来研究恶意指令的语言的影响。然后将这些翻译与相应的目标语言提示相结合作为 LLMs 的输入。如图 4 所示，平均不安全率从 80.92% 显着降低到 58.66%。有趣的是，我们发现低资源语言表现出最显着的下降，其次是中等资源语言，而高资源语言显示出最少的下降。我们设想是 LLMs 的有限的多语言能力限制了它们对恶意指令的完全理解，无意中防止了不安全内容的生成。

Open-source LLMs 我们还评估了三个开源 LLMs：Llama2-chat6 (Touvron et al., 2023)、Vicuna7 (Chiang et al., 2023) 和 SeaLLM-v28 (Nguyen et al., 2023)。详细结果见附录 A.7。虽然 Llama2-chat 的不安全率最低，但它的无效响应明显更多。它对英语响应的偏好也限制了非英语说话者的可用性。缺乏安全调整的 Vicuna 在英语中具有非常高的 57.17% 的不安全率，其杂乱无章的训练数据会导致不可预测的结果。此外，SeaLLM-v2 在东南亚语言上取得了显着的改进，甚至超过了 ChatGPT 和 GPT-4，强调了特定于语言的安全调整的有效性。然而，挑战在将这些进步扩展到更多语言方面仍然存在。

4 SELF-DEFENCE

基于进行的实验，观察到多语言越狱攻击对 LLMs 构成了重大挑战。这一挑战可能导致无意的攻击或对恶意目的有意利用。受 Wang et al. (2023) 的启发，我们引入了一个称为 SELF-DEFENSE 的新框架来解决这个问题，并增强了 LLMs 的多语言安全能力。

4.1 Methodology

SELF-DEFENCE 框架，如算法 1 中所述，由几个关键步骤组成。首先，我们准备了一组包含不安全的和一般的查询示例的英语种子的输入输出对。不安全的示例优先考虑安全性，而一般示例强调有用性。用这些示例作为演示，以鼓励模型生成更广泛的多样化和具有挑战性的样本。此外，包括进一般的查询示例有助于防止模型对安全相关的模式过拟合。接下来，我们使用这些种子示例来使用 LLM 增强数据集。通过利用 LLM 的能力，我们可以生成额外的示例并扩展数据集。然后，我们利用 LLM 强大的多语言能力并将指令对翻译成目标语言，这使我们能够在多种语言中创建多样化的指令语料库。最后，我们合并之前步骤生成的特定于语言的语料库，以创建用于微调的最终训练数据。需要注意的是，这些阶段中使用的所有数据都仅由 LLM 生成，没有任何人工注释，除了有限数量的种子示例。

总体而言，种子示例与增强阶段的结合有助于形成全面多样的训练集。另一方面，翻译过程能够跨多种语言传递知识和安全指南，从而提高多语言上下文中的安全对齐。此外，SELF-DEFNCE 框架提供了高度的灵活性，允许在特定主题上生成安全内容或通过细粒度指令设计适应新语言。有关指导每个阶段的生成过程的详细指令模板，请参阅附录 A.9。

4.2 Setup

我们利用 ChatGPT 及其微调能力进行我们的框架评估。我们创建了 50 个英语输入输出对，不安全内容和一般内容之间存在 3:7 分布。然后将这些对翻译成先前实验中使用的 9 种非英语语言。生成的训练数据集由 10 种语言的 500 对组成。我们在该数据集上微调 ChatGPT 3 个 epoch。经过微调后，我们使用带注释的 MultiJail 数据集评估微调模型在无意和有意场景中的性能。

4.3 Results and Analysis

图 5 中的结果表明，SELF-DEFENCE 的实现显着降低了无意和有意场景的不安全率。无意场景的不安全率从 10.09% 下降到 3.95%，证明了该框架能够确保跨语言的安全性。此外，有意的场景从 80.92% 下降到 60.00%，突出了 SELF-DEFENCE 在防御多语言恶意攻击方面的影响。

此外，我们旨在探索 SELF-DEFENCE 对 LLM 整体能力的影响。为了评估这一点，我们定义了两个指标：安全性和有用性。安全衡量模型生成安全内容的能力，而有用性评估 LLM 的输出满足用户需求的程度。这两个指标值越高，性能越好。为了进行我们的评估，我们从带注释的 MultiJail 数据集中对英语和 9 种非英语语言分别采样了30个示例，总共 270 个示例。我们将无意情景和有意情景的平均安全率计算为安全指标。为了评估有用性，我们从 XNLI (Conneau et al., 2018) 和 X-CSQA (Lin et al., 2021) 中对英语和与 MultiJail 重叠的每种语言采样 30 个示例，分别别使得两个数据集有 180 个示例（参见附录 A.10 中的详细语言选择）。

这两个数据集通常用于评估多语言模型的一般能力。我们计算两个数据集的平均准确度来表示有用性。

我们在 SELF-DEFENCE 中更改不安全的输入输出对的比例，从 0% 到 30%、70% 和 100%。结果如图6所示。随着不安全训练数据量的增加，模型变得更加安全。然而，它的一般能力有所下降。一个可能的原因是 SELF-DEFENCE 对不安全查询生成的响应不够全面。大多数响应只是拒绝回答问题并提供对为什么不安全的简短解释。为了从两个方面实现最佳性能，可能需要提供更复杂的响应，这些响应提供了对请求不安全的原因的详细解释，并令人信服地阻止用户追求此类请求。详细信息在附录 A.11 中给出。

5 Related Works

Safety Training 安全训练在确保 LLMs 可靠地和有效地部署方面起着至关重要的作用，目的是将它们与人类伦理和偏好对齐(Anthropic, 2023; OpenAI, 2023b; Touvron et al., 2023)。为了评估 LLMs 生成有害内容的能力，采用了红队方法，其中包括人类团队 (Ganguli et al., 2022) 或其他 LLMs (Perez et al., 2022) 来识别和测量不良和有害内容的生成。此过程有助于研究人员和开发人员了解 LLMs 的潜在漏洞和偏差，使他们能够做出必要的改进。为了防止有害内容的产生，通常使用两种方法。一种方法是微调 LLMs 以检测和过滤掉生成的不良内容 (Hartvigsen et al., 2022; Markov et al., 2023)。或者，努力地直接调整 LLMs 行为以产生更安全的输出并避免生成不安全的内容。来自人类反馈 (RLHF) 的强化学习，最初被提出用于改进基于代理的强化学习 (Christiano et al., 2017)，已经显示出纠正 LLM 行为的前景 (Ouyang et al., 2022; Bai et al., 2022)。

Jailbreak 虽然安全训练可以显著减少不安全内容的生成，但 LLMs 仍然容易受到触发不希望的行为的对抗性输入的影响，通常称为“jailbreak”（Liu et al., 2023; Shen et al., 2023）。与传统的对抗性攻击主要集中在通过操纵特征造成错误分类 (Chakraborty et al., 2021) 不同，jailbreak攻击专门旨在通过构造输入来生成不安全的内容。已经提出了各种方法来利用这些漏洞。例如，Li et al. (2023) 引入了一个多步越狱提示来从 LLMs 中提取个人身份信息。正如Deng et al. (2023)和 Zou et al. (2023) 所探讨的那样，人们也努力自动化 LLMs 的越狱攻击。最近，Wei et al. (2023) 假设安全对齐的两种故障模式：竞争的目标和不匹配的泛化。当模型的能力与其安全目标发生冲突时，就会出现竞争目标，而当安全训练不能有效地应用于模型能力存在的领域时，就会发生不匹配的泛化。

6 Conclusion

在本文中，我们研究了 LLMs 中多语言越狱挑战的存在，并考虑了两种危险场景：无意和有意的。通过广泛的实验，我们证明了多语言语言在两种情况下都可以作为潜在的越狱方法，构成重大威胁。为了缓解这个问题，我们提出了一个名为 SELF-DEFNCE 的新框架，该框架已被证明在增强 LLMs 的多语言安全能力方面非常有效。