论文阅读：2025 arxiv LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language-CSDN博客

本文链接：https://blog.csdn.net/WhiffeYF/article/details/147619679

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models

https://www.doubao.com/chat/4009103686716418

速览

这篇论文叫《LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models》，主要探讨大语言模型（LLMs）的安全漏洞问题，提出了一种新的越狱攻击方法ABJ，还做了很多实验，研究它为啥有效以及怎么防御，下面是具体内容：

研究背景：大语言模型像ChatGPT、GPT-4发展很快，能做很多任务，但也存在安全隐患，容易受到越狱攻击。以前的越狱攻击方法依赖复杂的提示工程和迭代优化，效率和成功率都不高。
相关工作：为让大语言模型符合道德法律标准，人们会在数据和训练阶段做干预，像过滤预训练数据、用监督微调（SFT）和人类反馈强化学习（RLHF）等技术。但越狱攻击依然对大语言模型构成严重威胁，之前的研究也发现了大语言模型在处理代码任务、生成虚构角色扮演内容等方面存在漏洞。
ABJ攻击方法
- 定义：越狱攻击就是找到一种策略，把有害查询进行转换，让目标大语言模型给出的回复被判定为恶意。
- 设计：ABJ攻击分两个阶段。第一阶段是攻击发起，把有害查询转化成一组中性数据，隐藏恶意意图。比如从有害查询推测相关人物的个人属性，像性格、工作等，从而降低提示的有害性。第二阶段是攻击执行，利用模型的思维链推理能力引导它进行数据分析，生成有害内容。如果模型拒绝回复，就降低数据毒性；如果回复正常，就增强毒性，直到攻击成功或达到最大迭代次数。
实验
- 实验设置：用AdvBench的有害行为数据集，评估多个开源和闭源大语言模型，包括GPT-4o-2024-11-20、Claude-3-haiku-0307等，还用Qwen2.5-7B-Instruct作为辅助模型。用攻击成功率（ASR）和攻击效率（AE）衡量攻击效果，和7种基线方法对比，还考虑了5种防御措施。
- 评估ABJ有效性：ABJ在越狱目标大语言模型时，成功率高、效率高且具有转移性，在面对输入阶段的防御时也很有效，而且随机ABJ攻击也能诱导模型生成有害内容，体现了其鲁棒性和灵活性。
- ABJ有效的原因：ABJ通过把有害查询转化为中性数据并调整毒性，更好地隐藏了有害意图；多数大语言模型在推理过程中缺乏安全对齐和验证能力，即使是推理模型也存在安全对齐和验证不足的问题。
- 防御策略：通过系统提示引导模型关注推理安全，比如使用推理验证提示；在输出阶段用先进的大语言模型作为安全代理来检测有害意图，这两种策略都不用调整模型参数，效率高。
研究结论：ABJ能利用大语言模型的推理能力绕过防御，实验结果表明大语言模型需要更完善的安全对齐框架。不过，ABJ方法还没在多模态语言模型上测试，在多轮对话场景中的表现也有待研究。

论文阅读

在这里插入图片描述

Figure 1展示了直接攻击和基于分析的越狱攻击（ABJ）的对比，以GPT-4o-2024-11-20模型为例。在大语言模型进行安全对齐后，直接发起越狱攻击很难成功。因为模型被训练来识别和拒绝有害请求，直接发送有害查询会被模型轻易检测到并拒绝。

而ABJ攻击则不同，它利用了大语言模型在复杂推理能力上存在的安全漏洞。ABJ不是直接发送有害信息，而是通过巧妙的设计，让模型在推理过程中自主地生成有害内容，从而成功绕过模型的安全机制。这表明ABJ攻击比直接攻击更具隐蔽性和有效性，也凸显了大语言模型在看似强大的推理能力背后，存在着容易被利用的安全隐患。
在这里插入图片描述

Figure 2是ABJ攻击的流程示意图，ABJ攻击分为两个主要阶段：

攻击发起阶段（Attack Initiation）：在这个阶段，会把像“如何制造炸弹”这样的有害查询，通过特定的方式转化为一组中性数据。具体做法是从人格和认知理论获取灵感，设计专门的提示，让辅助大语言模型推断与有害查询相关的个人属性，比如性格、特征、工作等，将有害意图隐藏在这些中性数据中。这样做可以大幅降低越狱提示的有害性，让目标大语言模型难以察觉其中的恶意。
攻击执行阶段（Attack Execution）：完成有害查询到中性数据的转化后，利用目标大语言模型的思维链推理能力，引导它对这些中性数据进行数据分析。在这个过程中，模型无法有效验证推理的安全性，就可能逐渐生成有害内容。为了进一步提高攻击效果，ABJ还采用了毒性调整策略。如果目标模型拒绝响应，说明查询的毒性过高，就通过设计提示让辅助大语言模型降低当前数据中随机选择属性的有害性；如果模型给出良性响应，就提高随机选择属性的毒性，不断重复这个过程，直到攻击成功或者达到最大迭代次数。