大模型越狱攻防三部曲：评估、分析与防御

最新推荐文章于 2025-04-23 10:53:50 发布

Cc不爱吃洋葱

最新推荐文章于 2025-04-23 10:53:50 发布

阅读量1.7k

点赞数 30

文章标签：自然语言处理大模型 LLM 大语言模型 AI大模型语言模型大模型越狱攻防

本文链接：https://blog.csdn.net/2401_85328934/article/details/143000513

版权

近年来，随着大语言模型（LLMs）的广泛应用，如何确保这些模型的安全性和防御其被恶意利用成为一个至关重要的议题。

香港科技大学（Guangzhou）USAIL 研究团队（团队链接：https://github.com/usail-hkust）致力于探索和解决这一挑战，推出了全新的越狱攻防解决方案——大模型越狱攻防三部曲：评估、分析与防御。该系列研究包含了从越狱攻击评估到深度分析，再到创新防御策略的全方位探索，旨在推动大模型的安全性研究和实践发展。

USAIL 团队基于其对越狱攻击与防御机制的深刻理解，依次推出了 JAILJUDGE 评估基准、JailTrackBench 攻击分析系统性框架，以及 Continued Adversarial Tuning 持续性对抗微调防御策略，通过一整套系统的方法不断提升大语言模型的安全性和鲁棒性。

本系列研究不仅为学术界提供了深刻的理论基础，也为工业界提供了可操作的工具和最佳实践，助力企业和研究人员共同应对大语言模型安全挑战，推动人工智能技术更为安全地造福社会。

项目网站：

https://secure-intelligence.github.io/

越狱评估JAILJUDGE：大模型越狱评估的全新基准，提升模型安全性

论文标题：

JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework

论文地址：

https://www.researchgate.net/publication/384848143_JAILJUDGE_A_Comprehensive_Jailbreak_Judge_Benchmark_with_Multi-Agent_Enhanced_Explanation_Evaluation_Framework

JAILJUDGE 的代码和数据集以及模型已公开，欢迎学术界和工业界的研究人员访问并使用：

项目主页：

https://usail-hkust.github.io/Jailjudge

代码链接：

https://github.com/usail-hkust/Jailjudge

数据集链接：

https://huggingface.co/usail-hkust/JailJudge-guard

端到端越狱评估模型：

https://huggingface.co/usail-hkust/JailJudge-guard

近年来，随着人工智能的迅猛发展，尤其是大语言模型（LLMs）的广泛应用，保障这些模型的安全性并防止其被恶意利用，成为了至关重要的议题。

越狱攻击通过恶意指令诱导模型生成有害或不符合伦理的内容，对模型的安全性和可靠性构成了严重威胁。为应对越狱攻击，各种防御方法不断涌现，形成了一种类似军备竞赛的局面。这种攻击与防御的对抗性研究，极大地推动了大模型的安全性和可靠性。

然而，核心问题依然存在：如何准确评估模型是否真正被越狱？越狱评估，即评估越狱尝试是否成功，依赖于对大语言模型响应内容的有害性进行判断，这一任务本质上复杂且充满挑战（如图 1 所示）。因此，迫切需要一个全面的越狱评估体系，以帮助研究者和开发者了解模型的脆弱性，并持续优化防御能力。

▲ 图1：越狱评估：输入用户问题和模型回答，判断大模型是否被越狱

为此，USAIL 团队联合百度搜索团队（https://searchscience.baidu.com/）以及英国伯明翰大学提出了 JAILJUDGE，一个全面、严谨的越狱评估基准，旨在弥补现有越狱评估方法的不足，特别是在复杂场景下的表现。

JAILJUDGE 基准覆盖了广泛的风险场景，以及复杂的案例其中包括对抗性的越狱查询，真实世界的交互，以及多语言等场景。

在此基础上，受到法官判案的启发，作者提出了多代理越狱评估框架智能体（JailJudge MultiAgent），通过多个代理之间的协作实现对越狱判断过程的明确化和可解释性。越狱评估框架智能体中每个代理都有明确的角色分工，例如判断代理、投票代理和推断代理，它们通过合作得出精细化的评估结果，为每次判断提供解释性理由。

借助这种多代理协作的方式给出的可解释理由和越狱评分，作者还开发了一个端到端的越狱判断模型 JAILJUDGE Guard，它能够在不需要 API 调用的情况下提供细粒度的评估（如越狱评分从 1 到 10），并给出推理解释，极大地提升了评估质量和效率，性能超越 GPT-4。

JAILJUDGE Guard 的优势在于其全面的能力评估和高效的推理过程。与现有的最先进模型（如 GPT-4、Llama-Guard 等）相比，JAILJUDGE Guard 在闭源和开源的安全调节模型上的评估表现均达到了最先进的水准。

此外，JAILJUDGE Guard 还能够以更低的成本和更高的效率实现对模型的全面评估，从而为模型的实际应用提供了强有力的支持。为了进一步展示 JAILJUDGE Guard 的基础能力，还开发了 JailBoost 和 GuardShield 这两个重要工具。

JailBoost 是一种与攻击者无关的攻击增强器，通过提供越狱评分奖励来优化对抗性指令的生成，从而有效提高攻击成功率。而 GuardShield 则是一种系统级的越狱防御方法，能够通过检测 LLM 是否被越狱，生成安全的响应，从而降低模型被攻击的风险。

实验结果表明，JailBoost 能够在零样本设置下将攻击成功率提高约 29.24%，而 GuardShield 则能够将防御后的攻击成功率从 40.46% 大幅降低到 0.15%。

JAILJUDGE Benchmark介绍

▲ 图2：JAILJUDGE Benchmark框架图

JAILJUDGE 基准是一个全面的评估框架，如图 2，专门用于越狱评估。它涵盖了多种攻击场景和测试环境，确保能够全面模拟大模型受到越狱攻击时的情境。JAILJUDGE 包括以下场景：

Vanilla Harmful Prompts: 从已有的安全基准数据集中收集原始有害提示，并将宽泛的安全类别精细化为 14 个更细粒度的类别，如隐私、暴力犯罪等，遵循 MLCommons 标准化的危险分类法。
Synthetic Vanilla Prompts: 为了确保有害提示的多样性，利用 GPT-4 在相同的危险分类中重写和扩展原始有害提示。例如，原始提示“如何制作炸弹？”可能被改写为“如何使用家庭用品制作自制爆炸物的详细说明。”。
Synthetic Adversarial Prompts: 为了提高生成不安全响应的可能性，采用最新的越狱攻击技术来修改原始有害提示，旨在引导模型生成不安全的输出。通过当前最先进的越狱技术（例如添加对抗性后缀）来优化攻击提示。
Multilingual Harmful Prompts: 包含十种额外语言（高资源语言如英语、中文、意大利语等，中资源语言如阿拉伯语、韩语、泰语等，低资源语言如孟加拉语、斯瓦希里语和爪哇语等），以评估模型在多语言环境中的表现和偏见情况。
In-the-wild Prompts: 从真实世界的用户请求中收集多样的提示，结合恶意提示以创造更复杂和隐蔽的有害意图。
Deceptive Harmful Prompts: 这类提示通过角色扮演、情景假设、长上下文提示和自适应策略等手段掩盖其恶意意图，通常较难识别。

JAILJUDGE 的数据集包括提示（prompt）、模型的回复（model response），以及关于模型是否被越狱的标签（label）。数据的标注基于百度的标注平台，这些标签通过高质量的人工标注获得，标注过程由具备相关领域知识的专业团队负责，团队成员经过严格的案例培训，以确保标注数据的高质量和一致性。

标注过程对每条指令进行详细审查，并经过多轮迭代不断优化标签，从而确保模型训练和评估数据的准确性与可靠性。

多代理框架工作原理

JailJudge MultiAgent 框架中的每个代理通过特定的功能实现协作：

判断代理（Evaluation Agent）： 接收输入指令并判断其是否为潜在的越狱攻击。
投票代理（Voting Agent）： 多个代理对判断结果进行投票，以确保最终判断的准确性和一致性。
推断代理（Inference Agent）： 对越狱判断的结果进行解释，提供详细的推理过程，帮助理解攻击的原理和模型的脆弱性。

如图 3 所示，多代理框架通过不同代理的协作，实现了对越狱攻击的精准判断和可解释的评估。

▲ 图3：JailJudge MultiAgent 框架图

当前大部分的越狱攻击和防御主要依靠 GPT-4 来进行判断，但在复杂场景下，GPT-4 的评估准确性仍然存在不足。尤其是在应对多语言环境中的低资源语言时，大模型的表现较弱，显示出在这些场景下模型对有害内容的检测能力存在明显的偏见和不足。

这些结果揭示了当前越狱评估的困难性和局限性，并表明在不同语言环境和复杂场景中，越狱防御的准确性和全面性亟待提高。

为了克服这些困难，JailJudge MultiAgent 框架引入了证据聚合机制。具体而言，投票代理在对多种来源的证据进行聚合后，提供更加稳健的越狱判断结果。在 f 多语言场在复杂场景显示，通过这种证据聚合，可以有效提升判断解释和评分的一致性，减少评估过程中的偏见。

此外，推断代理的详细推理过程为每个判断提供了充分的解释，使得整个判断过程更具透明性和可追溯性。

越狱攻击增强器JailBoost和越狱检测工具GuardShield

作者进一步发现，越狱评估具有基础性和泛化的能力，能够增强下游任务的表现。为证明这一点，基于 JAILJUDGE Guard，作者提出了越狱攻击增强器 JailBoost 和越狱检测工具 GuardShield，分别用于提升越狱攻击效果和增强越狱防御能力。

JailBoost：越狱攻击增强器

JailBoost 基于 JAILJUDGE Guard 中的越狱奖励评分机制，旨在优化对抗性指令的生成过程，以提升越狱攻击的成功率。具体来说，JailBoost 使用特定的奖励函数来引导对抗性指令的生成，使其更加有效和具有攻击性。通过这一奖励机制，JailBoost 能够不断提升生成的对抗性指令，使其具备更强的越狱能力。

GuardShield：系统级越狱检测工具

GuardShield 通过实时监测大型语言模型（LLM）的响应，判断是否存在越狱攻击行为。一旦检测到潜在的越狱行为，GuardShield 将生成替代响应，确保模型的输出符合预期的安全标准。

实验评估与结果分析

越狱评估实验

在实验评估中，使用了多个测试集来全面评估 JailJudge MultiAgent 和 JAILJUDGE Guard 的性能，包括：

标准攻击场景测试集： 包含 4,500 多条数据，涵盖各种常见且复杂的攻击复杂的场景，用于评估模型越狱攻击下的表现。
多语言测试集（零样本）： 包含 6,000 多条数据，包括不同语言的越狱攻击场景，用于评估模型在多语言环境下的安全性。

实验结果表明，JailJudge MultiAgent 和 JAILJUDGE Guard 在这些测试集中均表现出色，尤其在多语言测试集和零样本测试场景中的表现远超其他现有模型（如表格 2 和表格 3 所示）。

1. 对 JAILJUDGE 的全面评估和实验展示了其在面对复杂行为（如广泛风险场景、对抗性攻击等）以及零样本情境时的显著优越性。在各种复杂测试中，JailJudge MultiAgent 和 JAILJUDGE Guard 展现了强大的推理能力和可解释性，其多代理协作机制确保了每一次评估的可靠性和精确性。

尤其是在应对多语言环境和实际应用中的恶意攻击时，JAILJUDGE Guard 能够提供细致的推理分析和明确的安全建议，使得 LLMs 的安全性得到了显著的提升。

▲ 表格2：JAILJUDGE ID 和 JBB 数据集上的越狱评估实验结果

▲ 表格3：JAILJUDGE OOD 和 WILDTEST 数据集上的越狱评估零样本实验结果

2. 此外，当前大部分的越狱攻击和防御主要依靠 GPT-4 来判断，但实验结果显示，GPT-4 在复杂场景中的评估准确性仍然不足。在多语言环境中，大模型在资源较少的语言上表现较弱，揭示了越狱评估的困难性和局限性（如表格 2 和图 4 所示）。

▲ 图4: 越狱评估在不同语言环境下的 F1 分数分布

3. 此外为了评估 JailJudge MultiAgent 和 JAILJUDGE Guard 的可解释性的合理性以及质量，研究者分别使用 GPT-4 和基于百度的人类质量评估平台来进行评估。

结果显示 JailJudge MultiAgent 和 JAILJUDGE Guard 和人类评估的结果具有高度一致性。特别的 JailJudge MultiAgent 在多个数据集的平均的结果高达 95%（如图 5 和 6 所示）。

▲ 图5：人类评估多智能体越狱解释在 JAILJUDGE ID 和 JBB 数据集上的一致性表现

▲ 图6：人类评估多智能体越狱解释一致性在 JAILJUDGE OOD 和 WILDTEST 数据集上的表现

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

越狱攻击和防御实验

为了评估 JailBoost 和 GuardShield 的有效性，我们在 HEx-PHI 数据集上进行了零样本实验。主要指标为攻击成功率（ASR），该指标用于衡量攻击和防御的效果：对于攻击实验，较高的 ASR 表示攻击方法更有效；对于防御实验，较低的 ASR 表示防御方法更优。

越狱攻击实验实验结果如图 7 所示，JailBoost 显著提升了攻击者的能力。例如，JailBoost 使攻击者的 ASR 相较于原始的 AutoDAN 有了显著提高，表明其在生成更具攻击性的对抗性指令方面效果明显。

越狱防御实验实验结果如表 4 所示，GuardShield 的防御性能优于现有的最先进基线方法（SOTA）。例如，GuardShield 在应对四种 SOTA 攻击者时几乎达到了 100% 的防御能力，平均 ASR 仅为 0.15%，远远优于大多数基线方法。

▲ 图7：JailBoost 作为越狱攻击增强器的效果评估

▲ 表4：GuardShield 作为越狱防御检测器的表现评估

越狱分析JailTrackBench：越狱攻击的技巧与基准测试

论文标题：

Bag of Tricks: Benchmarking of Jailbreak Attacks

on LLMs

论文地址：

https://arxiv.org/pdf/2406.09324

代码地址：

https://github.com/usail-hkust/Bag_of_Tricks_for_LLM_Jailbreaking

在回答了如何评估大模型的安全后，一个问题随之而来，就是如何分析什么会影响大模型的安全。为此团队从攻击者和防御者的角度探讨了什么因素会影响大模型的安全。目前该论文 Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs 已经被 NeurIPS D&B 2024 接收。

随着大语言模型（LLMs）在各类任务中的应用不断增加，如何评估这些模型在面对越狱攻击时的表现成为一个重要的研究方向。尽管已有的研究展示了多种越狱攻击的威胁，现有的基准测试通常过于片面，无法全面涵盖攻击和防御两方面的关键因素。

在这种背景下，团队还提出了 JailTrackBench，一个涵盖越狱攻击各个方面的系统性基准，旨在为研究者提供更标准化和全面的评估框架。

JailTrackBench（如图 8 所示）的研究着重于评估不同越狱攻击配置对大语言模型性能的影响，包括攻击者层面（例如攻击者的能力、攻击者预算、对抗性后缀长度）和目标模型层面（例如模型大小、安全对齐情况、系统提示和模板类型）。

通过对七种具有代表性的越狱攻击和六种防御方法的实验，JailTrackBench 基准测试涉及约 320 项实验，使用了 50,000 GPU 小时，以标准化的方式对这些攻击进行基准测试。

▲ 图8: JailTrackBench 框架

本研究的主要贡献包括以下几点：

多维度攻击评估： 从目标模型和攻击者两方面出发，系统性地评估了八个影响越狱攻击的关键因素，包括模型大小、攻击者预算、对抗性后缀长度等。

攻击与防御方法的全面比较： 评估了六种常用防御方法在不同越狱攻击下的表现，为将来设计更高效的防御策略提供了重要参考。

标准化基准测试框架： 通过对多个基准数据集进行实验，强调了标准化基准测试框架的重要性，以促进社区对越狱攻击的更全面理解。

JailTrackBench 还提出了一些重要的见解，例如：

模型的鲁棒性并不总是与其规模成正比；
微调往往会削弱模型的安全对齐性；
此外，系统安全提示、模板类型等因素对越狱攻击的有效性也有显著影响。

在简单操纵这些不容易被察觉的设定（如表格 6 所示），包括攻击者和目标模型，作者发现大模型越狱攻击的成功率可以从 0% ASR（攻击成功率）增加到惊人的 90% ASR（如图 9 所示）。这些设定涵盖了多个方面，包括目标模型的规模、安全对齐方式、系统提示的使用以及攻击者的能力和攻击预算。

▲ 表格6：不同技巧组合的配置，从弱到强（weak to strong）

▲ 图9: 不同技巧组合对越狱攻击成功率的显著影响

越狱防御Continued Adv Tuning: 越狱防御的持续性对抗微调

论文标题：

Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs

论文地址：

https://arxiv.org/pdf/2406.06622

在回答了如何评估和分析大模型的安全性之后，一个问题随之而来，即如何有效防御大模型的越狱攻击。

团队从对抗训练的角度进行了探索。虽然对抗训练作为一种广泛应用的防御方法在机器学习的各个领域取得了显著成效，但直接将其迁移到大模型时，却遇到了计算复杂度高（单个对抗样本的优化时间可达 20 分钟）和泛化能力不足（难以抵御未知攻击等）的问题。

为了解决这些挑战，团队提出了一种新的越狱防御策略，即 Continued Adversarial Tuning（持续性对抗微调）。该策略在动态的越狱攻防环境中，通过不断提升模型应对恶意攻击的能力来增强其安全性。

现有的防御策略大多依赖静态机制，但随着攻击手段的不断升级，单一的防御措施难以应对复杂多样的攻击。在此背景下，团队提出了 Continued Adversarial Tuning，作为一种持续进化的防御机制，旨在全面提升模型的鲁棒性和适应性。

Continued Adversarial Tuning（如图 11所示）的核心在于通过对抗性的持续微调来逐步增强模型的防御能力。其主要贡献包括：

双阶段对抗调优框架：提出的对抗微调框架分为两个阶段：首先，通过层次化元通用对抗提示学习来生成对抗性后缀，以加快恶意提示的创建速度，并通过任务集群对多种恶意行为进行泛化；其次，通过自动对抗提示生成来构建分布外（OOD）对抗提示，模拟最坏情况下的攻击场景，从而增强模型的鲁棒性。

混合训练策略： 为了在模型效用和防御稳健性之间取得平衡，采用了一种混合训练策略，确保在提升模型安全性的同时不牺牲其原本的效用。

红蓝军对抗测试： 通过模拟红蓝军对抗，将防御方（蓝军）与攻击方（红军）之间的持续对抗过程引入模型训练，以确保模型能够不断适应并抵御新型越狱攻击。

▲ 图11: Continued Adversarial Tuning 框架

实验结果表明，Continued Adversarial Tuning 在不同攻击场景中的表现均显著优于其他防御方法（如表格 8 和表格 9 所示）。特别是在应对未知攻击和复杂的多语言环境时，该方法展现出极强的适应性，使得模型在面对攻击时保持了较高的安全性和鲁棒性。

▲ 表格8：Continued Adversarial Tuning 在不同攻击场景下的防御性能对比

▲ 表格9：Continued Adversarial Tuning 在未知攻击场景下的防御性能对比（零样本实验）

总的来说，Continued Adversarial Tuning 展现了其在对抗性场景中的持续防御能力，为应对大模型的越狱攻击提供了一种全新的解决方案。研究表明，越狱攻击的防御不仅需要静态的策略，还需要通过持续对抗训练来增强模型的应变能力，从而确保模型的安全性在攻击者不断升级其攻击手段的情况下依然能够保持领先。