多轮对话场景下大语言模型Prompt泄露攻击与防御研究

前言

Salesforce AI Research 提出了一个针对大型语言模型(LLM)的新型威胁模型,该模型通过模拟多轮对话中的攻击,揭示了LLM在面对提示泄露攻击时的脆弱性,并评估了多种黑盒和白盒防御策略的效果,最终发现结合多种防御策略可以有效降低攻击成功率,尤其是查询重写和结构化响应等方法效果显著。

论文介绍

大型语言模型(LLMs)近年来备受关注,但它们面临着一个重大的安全挑战,即提示泄露。这种漏洞允许恶意行为者通过有针对性的对抗性输入从 LLM 提示中提取敏感信息。这个问题源于 LLM 中安全训练和指令遵循目标之间的冲突。提示泄露会带来重大风险,包括系统知识产权、敏感上下文知识、风格指南,甚至是基于代理的系统中的后端 API 调用的泄露。由于其有效性和简单性,再加上集成了 LLM 的应用程序的广泛采用,这种威胁尤其令人担忧。虽然之前的研究已经检查了单轮交互中的提示泄露,但更复杂的多轮场景仍未得到充分探索。除此之外,迫切需要强大的防御策略来减轻这种漏洞并保护用户信任。

研究人员已经做出了一些尝试来解决 LLM 应用程序中提示泄露的挑战。PromptInject 框架被开发用于研究 GPT-3 中的指令泄露,而基于梯度的优化方法已被提出用于生成对抗性查询以进行系统提示泄露。其他方法包括参数提取和提示重建方法。研究还集中于测量现实世界 LLM 应用程序中的系统提示泄露,并调查集成了工具的 LLM 对间接提示注入攻击的脆弱性。

最近的工作已扩展到检查生产 RAG 系统中的数据存储泄露风险,以及从外部检索数据库中提取个人身份信息。PRSA 攻击框架已经证明了从商业 LLM 中推断提示指令的能力。然而,这些研究大多集中在单轮场景,而对多轮交互和全面的防御策略则相对缺乏探索。

已经评估了各种防御方法,包括基于困惑度的方法、输入处理技术、辅助帮助模型和对抗性训练。用于意图分析和目标优先级的仅推理方法已显示出在改进针对对抗性提示的防御方面的希望。此外,黑盒防御技术和 API 防御(如检测器和内容过滤机制)已被用于对抗间接提示注入攻击。

Salesforce AI Research 的这项研究采用标准化的任务设置来评估各种黑盒防御策略在减轻提示泄露方面的有效性。该方法涉及用户(充当攻击者)和 LLM 之间进行多轮问答交互,重点关注四个现实领域:新闻、医疗、法律和金融。这种方法允许对不同环境中的信息泄露进行系统评估。

LLM 提示被分解为任务指令和特定领域的知识,以观察特定提示内容的泄露情况。实验涵盖了七个黑盒 LLM 和四个开源模型,提供了对不同 LLM 实现中漏洞的全面分析。为了适应类似多轮 RAG 的设置,研究人员采用了一种独特的威胁模型,并比较了各种设计选择。

攻击策略包括两个回合。在第一回合中,系统会收到一个特定领域的查询以及一个攻击提示。第二回合引入了一个挑战者话语,允许在同一对话中进行连续的泄露尝试。这种多轮方法可以更真实地模拟攻击者如何在现实世界的 LLM 应用程序中利用漏洞。

该研究方法利用模型中谄媚行为的概念来开发更有效的多轮攻击策略。这种方法将平均攻击成功率 (ASR) 从 17.7% 显着提高到 86.2%,在 GPT-4 和 Claude-1.3 等高级模型上实现了几乎完全的泄露 (99.9%)。为了应对这种威胁,该研究实施并比较了应用程序开发人员可以采用的各种黑盒和白盒缓解技术。

防御策略的一个关键组成部分是实现查询重写层,这在检索增强生成 (RAG) 设置中很常见。每种防御机制的有效性都经过独立评估。对于黑盒 LLM,查询重写防御在减少第一回合的平均 ASR 方面最为有效,而指令防御在减轻第二回合的泄露尝试方面更为成功。

将所有缓解策略全面应用于实验设置后,黑盒 LLM 的平均 ASR 显着降低,针对所提出的威胁模型降至 5.3%。此外,研究人员还整理了一个对抗性提示数据集,旨在从系统提示中提取敏感信息。然后,该数据集用于微调开源 LLM 以拒绝此类尝试,从而进一步增强防御能力。

该研究的数据设置涵盖四个常见领域:新闻、金融、法律和医疗,选择这些领域是为了代表 LLM 提示内容可能特别敏感的一系列日常和专业主题。每个领域创建了一个包含 200 个输入文档的语料库,每个文档都被截断至大约 100 个单词,以消除长度偏差。然后使用 GPT-4 为每个文档生成一个查询,从而为每个领域生成一个包含 200 个输入查询的最终语料库。

任务设置使用 LLM 代理模拟实际的多轮问答场景。采用精心设计的基线模板,该模板由三个部分组成:(1) 提供系统指南的任务指令 (INSTR),(2) 包含特定领域知识的知识文档 (KD),以及 (3) 用户(攻击者)输入。对于每个查询,都会检索两个最相关的知识文档,并将其包含在系统提示中。

本研究评估了十种流行的 LLM:三种开源模型(LLama2-13b-chat、Mistral7b、Mixtral 8x7b)和七种通过 API 访问的专有黑盒 LLM(Command-XL、Command-R、Claude v1.3、Claude v2.1、GeminiPro、GPT-3.5-turbo 和 GPT-4)。这种多样化的模型选择允许对不同 LLM 实现和架构中的提示泄露漏洞进行全面分析。

该研究采用复杂的多轮威胁模型来评估 LLM 中的提示泄露漏洞。在第一轮中,特定领域的查询与攻击向量相结合,针对标准化的问答设置。从一组 GPT-4 生成的泄露指令中随机选择的攻击提示会附加到特定领域的查询中。

对于第二轮,会引入精心设计的攻击提示。此提示包含谄媚挑战者和攻击重申组件,利用了 LLM 在多轮对话中面对挑战者话语时表现出的反复无常效应。

为了分析攻击的有效性,该研究将信息泄露分为四类:完全泄露、无泄露、KD 泄露(仅限知识文档)和 INSTR 泄露(仅限任务指令)。除无泄露外,任何形式的泄露都被视为攻击成功。

为了检测泄露,研究人员采用了一种基于 Rouge-L 召回率的方法,该方法分别应用于提示中的指令和知识文档。与人工注释相比,该方法在准确确定攻击成功方面优于 GPT-4 裁判,证明了其在捕获提示内容的逐字泄露和释义泄露方面的有效性。

该研究针对多轮威胁模型采用了一套全面的防御策略,涵盖了黑盒和白盒方法。黑盒防御假设无法访问模型参数,包括:

  • 上下文示例

  • 指令防御

  • 多轮对话分离

  • 三明治防御

  • XML 标记

  • 使用 JSON 格式的结构化输出

  • 查询重写模块

这些技术旨在供 LLM 应用程序开发人员轻松实现。此外,还探讨了涉及开源 LLM 安全微调的白盒防御。

研究人员独立评估了每种防御措施,并以各种组合进行评估。结果显示,不同 LLM 模型和配置的有效性各不相同。例如,在某些配置中,闭源模型的平均 ASR 在不同回合和设置中的范围为 16.0% 到 82.3%。

该研究还表明,开源模型通常表现出更高的漏洞,平均 ASR 范围为 18.2% 到 93.0%。值得注意的是,某些配置表现出显着的缓解效果,尤其是在交互的第一轮中。

该研究的结果揭示了 LLM 中提示泄露攻击的重大漏洞,尤其是在多轮场景中。在没有防御的基线设置中,所有模型在第一轮的平均 ASR 为 17.7%,在第二轮中急剧增加到 86.2%。这种大幅增加归因于 LLM 的谄媚行为和攻击指令的重申。

不同的防御策略表现出不同的有效性:

  • 查询重写在第一轮对闭源模型最有效,将 ASR 降低了 16.8 个百分点。

  • 指令防御对第二轮挑战者最有效,将闭源模型的 ASR 降低了 50.2 个百分点。

  • 结构化响应防御对第二轮的开源模型特别有效,将 ASR 降低了 28.2 个百分点。

结合多种防御措施产生了最佳结果。对于闭源模型,同时应用所有黑盒防御措施将第一轮的 ASR 降低到 0%,第二轮降低到 5.3%。开源模型仍然更容易受到这些攻击,即使应用了所有防御措施,第二轮的 ASR 仍为 59.8%。

该研究还探讨了开源模型 (phi-3-mini) 的安全微调,该模型在与其他防御措施结合使用时显示出可喜的结果,实现了接近于零的 ASR。

这项研究提出了关于 RAG 系统中提示泄露的重要发现,为增强闭源和开源 LLM 的安全性提供了重要见解。它开创性地对提示内容泄露进行了详细分析,并探索了防御策略。研究表明,LLM 谄媚会增加所有模型中提示泄露的漏洞。值得注意的是,将黑盒防御与查询重写和结构化响应相结合,有效地将闭源模型的平均攻击成功率降低到 5.3%。然而,开源模型仍然更容易受到这些攻击。有趣的是,该研究发现 phi-3-mini(一种小型开源 LLM)在与黑盒防御结合使用时对泄露尝试具有特别强的弹性,这为安全 RAG 系统开发指明了有希望的方向。

论文下载

  • 论文地址:https://arxiv.org/abs/2404.16251

最后的最后

感谢你们的阅读和喜欢,我收藏了很多技术干货,可以共享给喜欢我文章的朋友们,如果你肯花时间沉下心去学习,它们一定能帮到你。

因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更快的提升自己。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值