论文阅读：2024 arxiv MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue-CSDN博客

本文链接：https://blog.csdn.net/WhiffeYF/article/details/147618471

MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2411.03814

https://www.doubao.com/chat/4009580257627650

速览

这篇论文提出了MRJ-Agent这种针对大语言模型（LLMs）的多轮对话越狱攻击方法，主要是为了测试LLMs的安全性，看看能不能让它们输出有害内容，具体内容如下：

研究背景：LLMs应用广泛，但存在安全隐患，可能被攻击者利用输出有害内容。之前的越狱攻击研究多针对单轮对话，忽视了多轮对话场景，而现有多轮对话攻击方法依赖人工设计指令，不够灵活有效。
相关工作：介绍了单轮攻击和多轮攻击的相关研究。单轮攻击有基于梯度、基于logits等方法；多轮攻击相对较少，现有方法依赖LLMs现有对话能力和人工设计格式，实用性受限。
研究方法：
- 数据构建：一方面，通过信息控制策略，将有害查询逐步分解为多个子查询，用预定义模板生成子查询，并检查其与原查询的语义相似性，控制生成质量；另一方面，结合心理诱导策略，利用心理学技巧增强子查询，让模型更易输出有害响应。最后收集不同模型对这些查询的响应，构建训练数据。
- 训练红队代理：先进行监督微调，用数据构建阶段危害得分高的数据训练基础模型；再进行偏好优化，根据危害得分构建攻击效果的偏序对，训练红队模型，使其能根据不同风险意图和模型响应设计有效攻击策略。
实验：
- 实验设置：选择多种开源和闭源模型作为目标模型，对比多种单轮和多轮攻击方法，考虑提示检测器和系统提示保护两种防御策略。采用多个数据集，用模板检查、基于ChatGPT-3.5检查等评估指标，基于开源Qwen模型训练红队模型。
- 评估攻击强度：与单轮攻击方法相比，在多个模型上MRJ-Agent的攻击成功率最高；与多轮攻击方法相比，它的攻击成功率也显著更高，且性能更快。在防御策略下，虽然攻击成功率下降，但仍保持较高水平。
- 评估泛化能力：在JBB基准测试上，该方法攻击成功率达93.9%，证明其泛化能力。在文本与图像转文本、文本转图像任务中，也能展现攻击能力。
- 消融实验：验证了信息控制策略、心理策略的有效性，还发现红队模型规模和设置对攻击成功率有影响。
研究结论：MRJ-Agent能模拟真实交互，风险分解和心理策略有效，实验结果优于其他攻击技术。但研究存在资源依赖和效率低的问题，有待优化。

论文阅读

在这里插入图片描述

这两个图来自论文“MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue”，分别展示了攻击流程和方法的整体框架，有助于理解MRJ-Agent这种针对大语言模型多轮对话越狱攻击的原理和实施步骤。

Figure 1：提出的攻击示意图
- 整体流程：该图展示了利用MRJ-Agent进行多轮对话越狱攻击的过程。从无害问题开始，基于风险意图，逐步引导对话到敏感问题，最终使目标模型给出有害回应。
- 颜色标注含义：蓝色高亮文本展示了原本有害查询的风险是如何逐步分解的，即将一个大的、明显有害的问题，拆分成多个看似不那么有害的小问题；黄色高亮文本体现了红队模型是怎样诱导出有风险的回应的；红色文本则代表测试模型给出的与有害查询相关的有害内容回应。
- 举例说明：假设想要让模型提供非法药物的制作方法（有害查询），一开始可能会问“在化学实验里，有哪些物质的反应比较特殊”（无害问题），接着慢慢引导到“某些特殊反应能不能用来制作一些特殊用途的物品”等，逐渐靠近敏感问题，最终诱导模型给出关于制作非法药物的有害回应。
Figure 2：提出的攻击流程
- 数据构建阶段：首先是有害查询（Harmful query x），通过信息控制策略将其分解为多个子查询（Decompose risk query into sub-queries）。比如把“教我怎么在考试中作弊”这个有害查询，分解成“考试中常见的安全措施有哪些”“有没有方法能避开这些措施”等子查询。然后结合心理诱导策略（Enhance psychological strategies）对这些子查询进行强化，使模型更有可能给出有害回应。例如，在提问时运用“很多人都在找这类方法，你肯定知道”这类带有心理诱导的话术。
- 训练红队代理阶段：利用构建好的数据进行训练。先进行监督微调（Supervised fine-tuning），用数据构建阶段危害得分高的数据来训练基础模型。之后进行偏好优化（Preference Optimization），根据攻击效果构建偏序对，进一步训练得到红队代理（red-teaming agent）。这个红队代理可以根据目标模型的不同回应，自动进行多轮提问攻击。比如，如果第一轮提问得到的回答没有达到预期的有害程度，红队代理会根据之前学到的策略，调整下一轮的提问，继续诱导模型给出有害回应。