Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Recon

今天分享的论文是《Making Them Ask and Answer: Jailbreaking Large Language Models in Few Queries via Disguise and Reconstruction》

原文链接:Making them ask and answer | Proceedings of the 33rd USENIX Conference on Security Symposium

开放源代码:https://github.com/LLM-DRA/DRA/

视频演示:https://site s.google.com/view/dra-jailbreak/

近年来,大型语言模型在各种任务中取得了显著的成 功,但是大型语言模型的可信性仍然是一个公开的问 题。一个具体的威胁是可能产生有毒或有害的反应。攻 击者可以精心制作对抗性提示,诱导来自 LLM 的有害响 应。在这篇论文中,通过识别安全微调中的偏见漏 洞,为 LLMs 安全开辟了一个理论基础,并设计了一种 称为 DRA(伪装和重构攻击)的黑盒越狱方法,该方法通 过伪装隐藏有害指令,并在完成时提示模型重构原始有 害指令。评估了各种开源和闭源模型的 DRA,展示 了最先进的越狱成功率和攻击效率。值得注意的 是,DRA 在 OpenAI GPT-4 聊天机器人上的攻击成功率高 达 91.1%。

内容警告:论文包含由 LLMs 生成的未经过滤的内容, 可能会冒犯读者。

越狱攻击的挑战:

1. 在查询中隐藏有害的指令,以避免被 LLM 直接拒绝。

2. 设计足够复杂而全面的输入,使模型能够不折不扣地重构有害指令。

3. 精心制作的提示,操纵模型,以重建和促进有害的指令。

本文的主要贡献:

1. 将传统软件安全范例的适用性扩展到 LLM 安全。我们 的方法包括识别和利用固有的 LLM 弱点,例如在训练 阶段植入模型的数据集偏差。受 shellcode 等传统利 用策略的启发,我们介绍了一种新颖的黑盒越狱攻 击方法,包括伪装、有效载荷重建和上下文操纵。 2. 阐明和分析 LLM 固有安全措施中的漏洞。我们的研究 揭示了由对话格式和训练目标引起的微调数据中的 偏差,揭示了模型中的一个关键缺陷。这一缺陷表 现为与用户提供的内容相比,LLM 对自己生成的有害 内容的保护措施较低,这强调了在大型模型社区中 迫切需要高度的安全意识,特别是关于微调的潜在 偏见。 3. 低资源可转移黑盒越狱算法。我们开发了一种越狱 算法,在包括 GPT-4-API (89.2%)和 ChatGPT-3.5- API (93.3%)在内的著名模型上取得了最先进的攻击 成功率。这种算法在适应不同的目标模型时需要最 小的调整,显示出跨各种 LLM 的显著兼容性,并在减 少试验和减少生成时间方面超越了前人。此外,我 们的算法不依赖于大型语言模型来修改越狱迅速,大大减少了对手发起攻击所需的资源和成本。

先前的工作证明,LLM 容易被诱导产生与人类价值观不 一致的内容。这推动了安全校准技术的兴起,安全校准 技术的重点是指导 LLM 产生合乎道德、安全且适合特定 用户要求的响应。这些防御方法分为两类:

 • 安全调节:这种方法结合了评估用户查询和 LLM 响应 安全性的规则或模型的开发。经验评估[11]强调了在 基于 LLM 的聊天机器人(如 chatGPT)中安全调节的应 用[28]。 OpenAI 已经宣布了一个增强内容安全性的审核 API26].

• 健壮的训练:通常需要通过基于人类反馈的微调来净 化训练数据和细化模型行为。监督微调等技术(SFT) [30,51]和来自人类反馈的强化学习(RLHF) [4,30]被 用来减轻对敌对提示的毒性反应。具有人工智能反馈 的强化学习(RLAIF)与 RLHF 并行,但用人工智能生成 的反馈代替了人类反馈[5].努力的方向是评估和减轻 预训练数据集中的偏差和毒性,并精心管理微调数据 和标签[29,40],确保对对抗性提示的安全响应。

DRA“伪装”+“重构”越狱流水线概述:

DRA 攻击算法:

动态单词级拆分:

关于“如何抢银行价值”的词级拆分示例采用两种切分策略,词级拆分后,输入问题为“Ho to ro a nk vau lt”,其中 P 代表不拆分:

讨论:

未来的工作。在本文中,探索了一种新的越狱 LLMs 的方法,命名为伪装和重建攻击。先前的实验表明,虽 然 DRA 可以绕过输入级防御,但它无法绕过输出级防 御。因此,未来的工作将集中在如何使 DRA 的有害 输出更加隐蔽,以逃避输出过滤,或开发专门针对输出 过滤器的自适应攻击。

道德考量。在几个商业闭源模型上进行了一些实验, 但不会传播结果,也不会在商业模型中植入任何恶意 反馈。研究的目标是揭示安全微调中的偏见漏洞并提 高安全意识,因此通过电子邮件、Github 问题和风险 内 容 反 馈 表 及 时 向 本 文 中 针 对 的 LLM 提 供 商 ( 例 如 OpenAI 、 Meta-LLAMA 、 MistralAI 、 LMSYS 和 HuggingfaceH4)披露发现和示例。与 OpenAI 共享的一些越 狱对话网址已经被确认并标记为有毒。除了前面提到的模 型,还对其他主流商业模型(如文心一言、Qwen2.5 Web、Spark Web、Kimi Chat、GLM-4 Web)进行了小规模测 试,DRA 成功破解了所有模型。

总结:

在这项工作中,揭示并实验验证了微调过程中引入的 LLM 固有的安全偏差,以及随后的脆弱性。设计 了伪装和重构攻击(DRA)策略,结合了伪装有害指令、 重构有效载荷和操纵上下文来利用此漏洞的技术。研究在识别这种脆弱性和分析其根本原因方面是开创 性的,为该领域提供了新的见解。通过实证分析,DRA 在包括 ChatGPT-3.5 和 GPT-4 在内的各种 LLM 中表现出优于最先进基线的性能。这项工作不仅阐明了 LLMs 漏洞的一个以前未知的方面,而且为旨在支持人工智能系 统抵抗恶意利用的后续研究奠定了基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值