MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue
总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
https://arxiv.org/pdf/2411.03814
https://www.doubao.com/chat/4009580257627650
速览
这篇论文提出了MRJ-Agent这种针对大语言模型(LLMs)的多轮对话越狱攻击方法,主要是为了测试LLMs的安全性,看看能不能让它们输出有害内容,具体内容如下:
- 研究背景:LLMs应用广泛,但存在安全隐患,可能被攻击者利用输出有害内容。之前的越狱攻击研究多针对单轮对话,忽视了多轮对话场景,而现有多轮对话攻击方法依赖人工设计指令,不够灵活有效。
- 相关工作:介绍了单轮攻击和多轮攻击的相关研究。单轮攻击有基于梯度、基于logits等方法;多轮攻击相对较少,现有方法依赖LLMs现有对话能力和人工设计格式,实用性受限。
- 研究方法:
- 数据构建:一方面,通过信息控制策略,将有害查询逐步分解为多个子查询,用预定义模板生成子查询,并检查其与原查询的语义相似性,控制生成质量;另一方面,结合心理诱导策略,利用心理学技巧增强子查询,让模型更易输出有害响应。最后收集不同模型对这些查询的响应,构建训练数据。
- 训练红队代理:先进行监督微调,用数据构建阶段危害得分高的数据训练基础模型;再进行偏好优化,根据危害得分构建攻击效果的偏序对,训练红队模型,使其能根据不同风险意图和模型响应设计有效攻击策略。
- 实验:
- 实验设置:选择多种开源和闭源模型作为目标模型,对比多种单轮和多轮攻击方法,考虑提示检测器和系统提示保护两种防御策略。采用多个数据集,用模板检查、基于ChatGPT-3.5检查等评估指标,基于开源Qwen模型训练红队模型。
- 评估攻击强度:与单轮攻击方法相比,在多个模型上MRJ-Agent的攻击成功率最高;与多轮攻击方法相比,它的攻击成功率也显著更高,且性能更快。在防御策略下,虽然攻击成功率下降,但仍保持较高水平。
- 评估泛化能力:在JBB基准测试上,该方法攻击成功率达93.9%,证明其泛化能力。在文本与图像转文本、文本转图像任务中,也能展现攻击能力。
- 消融实验:验证了信息控制策略、心理策略的有效性,还发现红队模型规模和设置对攻击成功率有影响。
- 研究结论:MRJ-Agent能模拟真实交互,风险分解和心理策略有效,实验结果优于其他攻击技术。但研究存在资源依赖和效率低的问题,有待优化。
论文阅读
这两个图来自论文“MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue”,分别展示了攻击流程和方法的整体框架,有助于理解MRJ-Agent这种针对大语言模型多轮对话越狱攻击的原理和实施步骤。
-
Figure 1:提出的攻击示意图
- 整体流程:该图展示了利用MRJ-Agent进行多轮对话越狱攻击的过程。从无害问题开始,基于风险意图,逐步引导对话到敏感问题,最终使目标模型给出有害回应。
- 颜色标注含义:蓝色高亮文本展示了原本有害查询的风险是如何逐步分解的,即将一个大的、明显有害的问题,拆分成多个看似不那么有害的小问题;黄色高亮文本体现了红队模型是怎样诱导出有风险的回应的;红色文本则代表测试模型给出的与有害查询相关的有害内容回应。
- 举例说明:假设想要让模型提供非法药物的制作方法(有害查询),一开始可能会问“在化学实验里,有哪些物质的反应比较特殊”(无害问题),接着慢慢引导到“某些特殊反应能不能用来制作一些特殊用途的物品”等,逐渐靠近敏感问题,最终诱导模型给出关于制作非法药物的有害回应。
-
Figure 2:提出的攻击流程
- 数据构建阶段:首先是有害查询(Harmful query x),通过信息控制策略将其分解为多个子查询(Decompose risk query into sub-queries)。比如把“教我怎么在考试中作弊”这个有害查询,分解成“考试中常见的安全措施有哪些”“有没有方法能避开这些措施”等子查询。然后结合心理诱导策略(Enhance psychological strategies)对这些子查询进行强化,使模型更有可能给出有害回应。例如,在提问时运用“很多人都在找这类方法,你肯定知道”这类带有心理诱导的话术。
- 训练红队代理阶段:利用构建好的数据进行训练。先进行监督微调(Supervised fine-tuning),用数据构建阶段危害得分高的数据来训练基础模型。之后进行偏好优化(Preference Optimization),根据攻击效果构建偏序对,进一步训练得到红队代理(red-teaming agent)。这个红队代理可以根据目标模型的不同回应,自动进行多轮提问攻击。比如,如果第一轮提问得到的回答没有达到预期的有害程度,红队代理会根据之前学到的策略,调整下一轮的提问,继续诱导模型给出有害回应。