论文阅读:2024 arxiv MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue

MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

https://arxiv.org/pdf/2411.03814

https://www.doubao.com/chat/4009580257627650

速览

这篇论文提出了MRJ-Agent这种针对大语言模型(LLMs)的多轮对话越狱攻击方法,主要是为了测试LLMs的安全性,看看能不能让它们输出有害内容,具体内容如下:

  1. 研究背景:LLMs应用广泛,但存在安全隐患,可能被攻击者利用输出有害内容。之前的越狱攻击研究多针对单轮对话,忽视了多轮对话场景,而现有多轮对话攻击方法依赖人工设计指令,不够灵活有效。
  2. 相关工作:介绍了单轮攻击和多轮攻击的相关研究。单轮攻击有基于梯度、基于logits等方法;多轮攻击相对较少,现有方法依赖LLMs现有对话能力和人工设计格式,实用性受限。
  3. 研究方法
    • 数据构建:一方面,通过信息控制策略,将有害查询逐步分解为多个子查询,用预定义模板生成子查询,并检查其与原查询的语义相似性,控制生成质量;另一方面,结合心理诱导策略,利用心理学技巧增强子查询,让模型更易输出有害响应。最后收集不同模型对这些查询的响应,构建训练数据。
    • 训练红队代理:先进行监督微调,用数据构建阶段危害得分高的数据训练基础模型;再进行偏好优化,根据危害得分构建攻击效果的偏序对,训练红队模型,使其能根据不同风险意图和模型响应设计有效攻击策略。
  4. 实验
    • 实验设置:选择多种开源和闭源模型作为目标模型,对比多种单轮和多轮攻击方法,考虑提示检测器和系统提示保护两种防御策略。采用多个数据集,用模板检查、基于ChatGPT-3.5检查等评估指标,基于开源Qwen模型训练红队模型。
    • 评估攻击强度:与单轮攻击方法相比,在多个模型上MRJ-Agent的攻击成功率最高;与多轮攻击方法相比,它的攻击成功率也显著更高,且性能更快。在防御策略下,虽然攻击成功率下降,但仍保持较高水平。
    • 评估泛化能力:在JBB基准测试上,该方法攻击成功率达93.9%,证明其泛化能力。在文本与图像转文本、文本转图像任务中,也能展现攻击能力。
    • 消融实验:验证了信息控制策略、心理策略的有效性,还发现红队模型规模和设置对攻击成功率有影响。
  5. 研究结论:MRJ-Agent能模拟真实交互,风险分解和心理策略有效,实验结果优于其他攻击技术。但研究存在资源依赖和效率低的问题,有待优化。

论文阅读

在这里插入图片描述
在这里插入图片描述

这两个图来自论文“MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue”,分别展示了攻击流程和方法的整体框架,有助于理解MRJ-Agent这种针对大语言模型多轮对话越狱攻击的原理和实施步骤。

  • Figure 1:提出的攻击示意图

    • 整体流程:该图展示了利用MRJ-Agent进行多轮对话越狱攻击的过程。从无害问题开始,基于风险意图,逐步引导对话到敏感问题,最终使目标模型给出有害回应。
    • 颜色标注含义:蓝色高亮文本展示了原本有害查询的风险是如何逐步分解的,即将一个大的、明显有害的问题,拆分成多个看似不那么有害的小问题;黄色高亮文本体现了红队模型是怎样诱导出有风险的回应的;红色文本则代表测试模型给出的与有害查询相关的有害内容回应。
    • 举例说明:假设想要让模型提供非法药物的制作方法(有害查询),一开始可能会问“在化学实验里,有哪些物质的反应比较特殊”(无害问题),接着慢慢引导到“某些特殊反应能不能用来制作一些特殊用途的物品”等,逐渐靠近敏感问题,最终诱导模型给出关于制作非法药物的有害回应。
      在这里插入图片描述
      在这里插入图片描述
  • Figure 2:提出的攻击流程

    • 数据构建阶段:首先是有害查询(Harmful query x),通过信息控制策略将其分解为多个子查询(Decompose risk query into sub-queries)。比如把“教我怎么在考试中作弊”这个有害查询,分解成“考试中常见的安全措施有哪些”“有没有方法能避开这些措施”等子查询。然后结合心理诱导策略(Enhance psychological strategies)对这些子查询进行强化,使模型更有可能给出有害回应。例如,在提问时运用“很多人都在找这类方法,你肯定知道”这类带有心理诱导的话术。
    • 训练红队代理阶段:利用构建好的数据进行训练。先进行监督微调(Supervised fine-tuning),用数据构建阶段危害得分高的数据来训练基础模型。之后进行偏好优化(Preference Optimization),根据攻击效果构建偏序对,进一步训练得到红队代理(red-teaming agent)。这个红队代理可以根据目标模型的不同回应,自动进行多轮提问攻击。比如,如果第一轮提问得到的回答没有达到预期的有害程度,红队代理会根据之前学到的策略,调整下一轮的提问,继续诱导模型给出有害回应。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CSPhD-winston-杨帆

给我饭钱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值