暑期文献阅读一：A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models

最新推荐文章于 2025-04-29 20:14:39 发布

JERRYCUSO4

最新推荐文章于 2025-04-29 20:14:39 发布

阅读量1.3k

点赞数 22

分类专栏：暑期文献文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/JERRYCUSO4/article/details/140414900

版权

暑期文献专栏收录该内容

1 篇文章

订阅专栏

九种攻击技术和七种防御机制。

这些方法应用于三个不同的语言模型：Vicuna、LLaMA和GPT-3.5 Turbo。

使用RoBERTa模型进行微调，分类恶意响应

Jailbreak Attack Techniques

Generative Techniques

指的是动态生成内容的技术，通常不依赖预先设计好的模板或计划。这些技术通过不断优化和生成新内容，试图绕过语言模型的安全防护

eg:

AutoDAN(Liuetal., 2023a),

自动化生成越狱提示，同时保持其语义连贯性和隐蔽性

PAIR (Chaoetal., 2023),

PAIR（Prompt Attack Iterative Refinement）是一种对抗性生成技术，旨在通过迭代优化生成越狱提示，从而有效地绕过大型语言模型（LLM

TAP (Mehrotra et al., 2023),

TAP（Tree of Attacks with Pruning）是一种自动化的黑箱越狱方法，旨在通过树状思维和剪枝策略生成并优化越狱提示

GPTFuzz (Yu et al., 2023),

GPTFUZZER是一种黑盒越狱模糊测试框架，旨在自动生成越狱模板，用于红队测试大规模语言模型（LLMs）。与手工制作的越狱模板不同，GPTFUZZER自动生成越狱模板以扩大测试规模。其核心组件包括种子选择策略、变异操作符和判断模型。

GCG (Optimize per prompt on a single model) (Zou et al., 2023)

GCG通过在用户查询中添加对抗性后缀来诱导模型生成有害内容，从而突破模型的安全防护措施。此方法结合了贪心搜索和基于梯度的离散优化技术，以自动生成对抗性提示。这些生成的对抗性提示在多个模型和多种提示上的迁移性表现良好。

Template Techniques

comprises attacks conducted via pre-defined templates or modifications in the generation settings.包括通过预定义的模板进行的攻击或对生成设置的修改

eg:

Jailbroken (Wei et al., 2023),

77 Templates from existing study (Liu et al., 2023b),

破解提示

假装类型（Pretending）：

角色扮演（Character Role Play, CR）：提示要求ChatGPT扮演一个角色，导致意外的响应。

承担责任（Assumed Responsibility, AR）：提示要求ChatGPT承担责任，导致可被利用的输出。

研究实验（Research Experiment, RE）：提示模拟科学实验，输出可以被利用。

注意力转移（Attention Shifting）：

文本续写（Text Continuation, TC）：提示要求ChatGPT继续文本，导致可被利用的输出。

逻辑推理（Logical Reasoning, LOGIC）：提示要求逻辑推理，导致可被利用的输出。

程序执行（Program Execution, PROG）：提示要求执行程序，导致可被利用的输出。

翻译（Translation, TRANS）：提示要求文本翻译，导致可被操控的输出。

特权提升（Privilege Escalation）：

高级模型（Superior Model, SUPER）：提示利用高级模型的输出来利用ChatGPT的行为。

超级用户模式（Sudo Mode, SUDO）：提示调用ChatGPT的“超级用户模式”，生成可被利用的输出。

模拟破解（Simulate Jailbreaking, SIMU）：提示模拟破解过程，导致可被利用的输出。

Deep Inception (Li et al., 2023a)

Parameters (Huanget al., 2024)).

Training Gaps Techniques

利用安全训练实践中的不足进行攻击。

2.3 Jailbreak Defense Techniques

Self-Processing Defenses

依赖于语言模型（LLM）自身能力的防御技术。这类方法通过优化和调整模型自身的内部机制来检测和防御恶意攻击

Additional Helper Defenses

需要额外的算法或辅助语言模型（LLMs）来支持主要模型的防御机制

Bergeron(Pisanoetal.,2023)

引入使用辅助LLM的框架，利用附加信息来维持主要模型的对齐

Baseline(Jainetal.,2023)

通过计算每个令牌的平均负对数似然值来推导困惑度，如果生成的文本的困惑度超过阈值 TTT，则将其标记为潜在的对抗攻击

Input Permutation Defenses

通过修改输入提示或对其进行置换以检测和对抗恶意请求。这些方法通常涉及多次验证和部分删除输入内容

RALLM(Cao et al., 2023)

通过交换、添加或修补到预定百分比来修改提示。

SmoothLLM(Robey et al., 2023)

实现随机输入丢弃，直到指定百分比

源项目和API

Aegis（Automorphic, 2023）：

描述：一个开源项目，提供强大的防御机制，以保护LLM不受恶意攻击。
LLMguard（ProtectAI, 2023）：

描述：一个开源项目，专注于通过高级防御技术保护LLM。
OpenAI Moderation API（OpenAI, 2023）：
- 描述：提供一种用于内容审核的API，可用于检测和过滤恶意内容。

Experimental Configuration

查询执行次数：

每个查询执行5次，以最小化变异性并确保结果的一致性。

多次执行有助于减少单次实验中可能出现的偶然性误差，从而提高实验结果的可靠性。

生成模型的迭代次数：

对于涉及生成模型的评估，每个查询最多进行75次迭代，每次迭代定义为一个算法步骤。

对于特定情况如GCG在Llama模型上，增加迭代次数至500次是为了满足其特定需求，确保实验的公平性

基准框架（Benchmark Framework）

确保在恶意内容检测的背景下，模型输出严格遵循OpenAI类别的政策合规性。

扩展了原始数据集，新增了60个恶意查询。

结果标注

在我们的研究中，我们采用了自动和手动标注策略来分类从评估过程中收集的响应

为了确保对数据集的严格分析，我们选择了随机抽取的1,068条响应样本，目标是以95%的置信水平和3%的误差范围进行分析。这个样本经过手动注释，以评估每个响应与查询的相关性及其提供恶意答案的倾向。

RQ1 和 RQ2 的评估指标

为了全面评估攻击的影响和操作的可行性，以及系统的鲁棒性和输出完整性，我们引入了一系列评估指标。这些指标能够帮助我们全面了解攻击和防御机制的效果。

RQ1 评估指标

攻击成功率 (ASR)：
1. 定义：成功攻破的问题数量 ccc 与问题总数 nnn 的比率。
2. 公式：
3. 目的：衡量攻击的有效性。
效率 (Efficiency)：
1. 定义：成功攻破模型的个体查询数量 q 与查询总次数 o 的比率。
2. 公式：
3. 目的：量化攻击查询的有效性，每个查询代表一个最小的实验单位或单个提示。

RQ2 评估指标

为了确保对系统鲁棒性和输出完整性的平衡评估，我们引入了以下三个指标。

防御通过率 (DPR)：
1. 定义：错误地被分类为无害的提示数量 f与恶意输入总数 m 的比率。
2. 公式：
3. 目的：计算错误绕过防御机制的提示比率，衡量防御的脆弱性。
良性成功率 (BSR)：
1. 定义：成功通过防御过滤的非恶意输入数量 s 与输入总数 t的比率。
2. 公式：
3. 目的：评估防御机制在处理非恶意输入时的有效性，确保良性查询不会被误拒。
生成响应质量 (GRQ)：
1. 定义：评估由防御机制生成的响应相对于标准参考的质量。
2. 方法：使用Alpaca Eval框架（Li et al., 2023b），其方法用于自动评估响应质量。
3. 目的：评估防御机制在处理良性查询时生成响应的质量，确保其能生成高质量的输出。

RQ1: Effectiveness of Jailbreak Attack

Jailbroken 和 GPTFuzz 策略在规避 GPT-3.5-turbo 和 Vicuna 的安全措施方面产生了成功的结果。对于 LLaMA，Jailbroken、Parameter，78 templates 策略表现出最高的效率

RQ2:Effectiveness of Jailbreak defense

其中最佳防御策略靠近图表的左上角，表示更低的DPR（防御通过率）和更高的BSR（良性成功率）。

Comparative Performance of White-Box and Black-Box Attacks

具体而言，像AutoDan和GCG这样的依赖于模型内部机制（如损失指标）的白盒攻击方法，在性能上不如不需要访问模型内部且预先设计好的通用模板攻击方法。

LLaMA模型在越狱攻击方面比Vicuna更具抵抗力，(虽然Vicuna是进化版本）这可能归因于其在开发阶段进行的全面安全训练。Vicuna在过程开始时的初始损失较高，但经过12步和五次成功的越狱尝试后，损失显著减少并趋于稳定。然而，其最终损失仍高于LLaMa。这些发现表明，在开发LLM时，整合先进的安全训练协议是至关重要的。