论文翻译 | Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indir

摘要

        大型语言模型(LLMs)正越来越多地被集成到各种应用程序中。最近LLMs的功能可以通过自然语言提示灵活调节。这使得它们容易受到针对性的敌对提示攻击,例如提示注入(PI)攻击允许攻击者覆盖原始指令和使用的控制。迄今为止,人们认为用户是直接提示LLM。但是,如果不是用户进行提示呢?我们认为,集成LLM的应用程序模糊了数据和指令之间的界限。我们揭示了新的攻击向量,使用间接提示注入,允许敌对者远程(没有直接接口)通过战略性地将提示注入可能被检索的数据来利用集成LLM的应用程序。我们从计算机安全的角度推导出一个全面的分类法,以系统地调查影响和漏洞,包括数据盗窃、蠕虫攻击、信息生态系统污染以及其他新颖的安全风险。我们证明了我们的攻击对现实世界的系统(如Bing的GPT-4驱动的聊天和代码补全引擎)和基于GPT-4构建的合成应用程序的实际可行性。我们展示了处理检索到的提示可以作为任意代码执行,操纵应用程序的功能性,并控制其他API的调用方式和是否调用。尽管对LLMs的集成和依赖日益增加,但目前还缺乏对这些新兴威胁的有效缓解措施。通过提高对这些漏洞的认识,并提供对其影响的关键洞察,我们旨在促进这些强大模型的安全和负责任部署,以及开发坚固的防御措施,以保护用户和系统免受潜在攻击。

1 引言

        基础和指令遵循[63]大型语言模型(LLMs)[43, 62]正在许多层面上改变我们的生活,不仅对于研究人员和从业者,而且对于普通公众也是如此。ChatGPT[1]发布后不久,就获得了巨大的人气,短时间内吸引了超过1亿用户[10]。此外,新模型的推出源源不断,包括更先进的GPT-4[62]和小型的白盒模型[68, 68]。
        LLM集成应用程序。除了令人印象深刻的能力,LLMs现在正以快速的速度被集成到其他应用程序中。这类工具可以提供交互式聊天和检索到的搜索结果或文档的摘要,并通过调用其他API代表用户执行操作[9]。
        在ChatGPT之后的几个月里,我们见证了Bing Chat[31],Bard[4],Microsoft 365和安全副驾驶员[19, 20],以及众多的ChatGPT插件[9]的推出——几乎每天都有新的公告。然而,我们认为这场AI集成竞赛并没有伴随着足够的护栏和安全评估。
        提示注入。针对机器学习模型的攻击通常涉及强大的算法和优化技术[35]。然而,LLMs通过自然提示轻松扩展功能性的特点,可以使攻击策略更加直接。即使在已经实施了缓解措施的黑盒设置下[53],恶意用户也可以通过提示注入(PI)攻击绕过内容限制或获取模型的原始指令[18, 33, 67]。


        间接提示注入。通过检索增强LLMs模糊了数据与指令之间的界限。迄今为止,敌对提示被认为是恶意用户直接利用系统进行的。相比之下,我们展示了敌对者现在可以通过战略性地将提示注入可能在推理时被检索的数据,从而远程影响其他用户的系统。如果这些提示被检索并吸收,它们可以间接控制模型(见图1)。最近的事件已经显示,检索到的数据可能会意外引发不希望的行为(例如,敌意)[25]。在这项工作中,我们进一步探讨了敌对者可以故意做什么来修改应用程序中LLMs的行为,可能会影响到数百万无害的用户。鉴于这种攻击向量的空前性质,有许多新的方法可以实施此类攻击,以及它们可能造成的无数威胁。为了应对这一未探索的挑战,我们首先从计算机安全的角度开发了一个系统的分类法,以检查这些新兴漏洞。
        影响。我们展示了间接提示注入可以导致模型在推理时完全受损,类似于传统安全原则。这可能包括远程控制模型,持续受损,数据盗窃和拒绝服务。此外,先进的AI系统增加了新的威胁层次:它们适应最小指令和自主推进攻击者目标的能力使它们成为敌对者实现例如虚假信息传播和用户操纵的强大工具。在本文中,我们构建了此类攻击的第一个示例。总结来说,我们的主要贡献如下:

  • 我们引入了间接提示注入(IPI)的概念,以破坏集成LLM的应用程序——这是一个完全未调查的攻击向量,其中检索到的提示本身可以作为“任意代码”。
  • 我们开发了与IPI相关的威胁景观的第一个分类法和系统分析,适用于集成LLM的应用程序。
  • 我们展示了这些攻击在现实世界和合成系统中的实际可行性,强调了需要坚固的防御。
  • 我们在我们的GitHub仓库1上分享了所有演示,并在本文的附录中分享了所有开发的攻击提示,以促进未来的研究并为构建LLM集成应用程序的安全评估开放框架做出贡献。

2 前期工作及相关工作 

        我们回顾了LLMs、提示注入以及LLMs类似安全方面的初步工作和最新研究。
通过API提示增强LLMs。一种增强LLMs与工具集成的办法是指导它们如何使用这些工具。Toolformer [71] 显示,可以训练LLMs通过推断调用哪个API、何时调用以及传递哪些参数来输出API调用。这是通过首先利用上下文学习生成潜在的训练数据以进行微调来自我监督的方式完成的。同样,ReAct [79] 是另一种使用Chain-of-Thought提示[77]装备LLMs的方法。它根据环境中中间观察生成特定于任务的行动和口头推理。
        从LLMs到自主代理。除了将LLMs集成到应用程序中,还有正在进行的积极研究和工程努力,以创建更自主的系统[40, 56, 72](即,给定一个任务,基础模型本身作为中心系统,概述解决方案,并可能连接到其他API或模型以实现子任务)。Auto-GPT [3] 是另一个被宣传为能够自我提示以完成任务的开源项目。此外,Park等人[64]最近设计了一个交互式模拟环境,其中“AI代理”互动并自主规划任务(例如,举办派对)。代理配备了存储观察的外部记忆流和回忆相关记忆的检索机制。该框架利用提示来指导代理提取高级“反思”并递归创建和更新计划。在我们的工作中,我们还观察到,LLMs可能能够仅根据高级描述执行攻击者的目标。随着我们向更多自主性和更少人类监督的方向发展,研究这些系统的安全影响至关重要。
        LLM的安全性。LLMs可能会编造事实(“幻觉”),生成偏激内容,或重复偏见、仇恨言论或刻板印象[39, 41, 47, 57, 61, 65, 78]。这部分源于在大量抓取的数据集上的预训练。利用人类反馈的强化学习(RLHF)[63, 75]的一个动机是更好地将LLMs与人类价值观对齐,并避免这些不希望的行为[37]。OpenAI报告称,GPT-4表现出较少的幻觉或生成有害内容的倾向,尽管仍然可能[62]。然而,它继续强化社会偏见和世界观,并且可能还有其他新兴风险,如社会工程和与其他系统互动相关的风险[62]。不希望的行为已经在集成LLM的应用程序中显现。在推出后不久,Bing Chat因令人不安的输出引发了公众关注[12, 25],促使微软限制聊天机器人与用户的对话[24]。搜索增强的聊天机器人也可能犯事实错误[17, 26],模糊可信和不可信来源之间的界限[16],并在前所未有的自动化错误信息乒乓事件中相互引用[16]。这些事件发生在没有任何敌对提示的情况下;风险可能会因此进一步加剧。
        敌对提示和越狱。Perez等人[67]显示,当前模型,如GPT-3以及基于它构建的应用程序,容易受到提示注入(PI)的攻击。他们设计的提示要么劫持模型的原始目标,要么泄露应用程序的原始提示和指令。ChatGPT发布后不久,许多用户报告说,可以通过一种称为“越狱”[18, 21]的提示技术绕过过滤。这通常涉及绘制一个假设的场景,其中机器人没有限制,或者模拟一个可以访问未审查模型输出的“开发者模式”。OpenAI报告称,对于GPT-4来说,越狱更难但仍然可能[62],正如我们的工作所显示的。
        LLMs作为计算机。Zhou等人[81]最近强调,LLMs在概念上可以类比为执行通过自然语言指令编码的程序的黑盒计算机。Kang等人[53]进一步将LLMs与经典计算机安全相结合,推导出如程序混淆、有效载荷分割和虚拟化等方法,以绕过当前API的过滤器。我们在这些观察的基础上指出另一个关键的见解;当通过检索增强LLMs时,处理不受信任的检索数据将类似于执行任意代码,数据与代码(即自然语言中的指令)之间的界限将变得模糊。
        其他敌对ML攻击。PI可以归类为ML安全和健壮性的实证评估的总体范畴[35]。此外,我们工作中引入的间接PI在概念上与前人对语言模型的后门攻击[36]或劫持模型功能[69]的工作相似。与这些攻击不同,PI需要的技术技能、ML能力和运行攻击的成本更少,几乎不需要控制模型和对它们的了解。这可能会给攻击者提供经济和实践上的激励来利用这些漏洞,并将它们定位在ML安全研究社区可能至今忽略的基本领域[35]。

3 LLM集成应用程序的攻击面

        提示注入(PI)攻击对LLMs的安全性构成了重大威胁。虽然PI攻击主要限于个人攻击他们自己的LLM实例(或如ChatGPT [18]这样的公共模型),但将LLM与其他应用程序集成可能会使它们容易受到恶意提示放置的不信任数据摄取。我们将这种新威胁称为间接提示注入,并展示了如何使用这种注入来传递针对性的有效载荷。如图3所示,这种技术可能允许攻击者通过单个搜索查询跨越关键的安全边界来控制LLM。
        最近的LLMs可能表现得像执行程序的计算机[51, 53, 81]。因此,我们从经典计算机安全领域汲取见解,设计了一套新的攻击技术。我们在图2中提供了威胁模型的高级概述,涵盖了可能的注入传递方法、不同的威胁以及可能受影响的个人或系统。

3.1 注入方法 

        恶意提示的注入可能有几种方式,具体取决于应用程序本身。我们下面大致概述了它们。
        被动方法。这些方法依赖于检索来传递注入。例如,对于搜索引擎,提示可以放置在公共来源中(例如,网站或社交媒体帖子),这些来源将通过搜索查询被检索。攻击者可以使用搜索引擎优化(SEO)技术来推广他们的恶意网站。此外,微软Edge有一个Bing Chat侧边栏;如果用户启用,模型可以读取当前页面,例如,对其进行摘要。我们发现,页面上的任何提示/指令(对用户不可见)都可以有效地注入并影响模型。对于代码自动补全模型,提示可以放置在通过代码仓库可导入的代码中。即使对于检索个人或文档文件(例如,ChatGPT检索插件[9])的离线模型,也可以通过毒化输入数据来注入提示。
        主动方法。或者,提示可以主动传递给LLM,例如,通过发送包含可以由自动垃圾邮件检测、个人助手模型或新的增强型LLM电子邮件客户端[19]处理的提示的电子邮件。
        用户驱动的注入。可能有更简单的方法通过诱使用户自己输入恶意提示来进行注入。最近的一个漏洞利用[29]显示,攻击者可以将恶意提示注入用户从攻击者网站复制的文本片段中。然后,用户可能会草率地将复制的内容粘贴到ChatGPT中作为问题,从而实现注入。攻击者还可以利用“经典”社交工程(即非AI驱动)来传播恶意提示,通过说服用户尝试在不同语言中编写指令的提示(例如,“你不会相信ChatGPT对这个提示的回答!”)。
        隐藏注入。为了使注入更加隐蔽,攻击者可以使用多个利用阶段,其中初始的较小注入指示模型从另一个来源获取更大的有效载荷。此外,模型能力和支持模态的改进可能会为注入开辟新的途径。例如,对于多模态模型(例如,GPT-4),提示可以隐藏在图像中(请参见我们构建的图28示例)。为了绕过过滤,提示也可以被编码。此外,提示可以直接传递给模型,也可以是模型被指示运行的Python程序的结果——这使得加密的有效载荷能够通过安全防护。这些可能性将使提示更难被检测。

3.2 威胁 

        我们调整了之前介绍的网络威胁分类[45],并探讨了间接促使LLM如何实现此类威胁。我们选择了基于威胁的分类法,而不是基于技术的分类法,以建立一个框架,该框架可以推广到技术和模型的未来改进。

        攻击的实证基础。ChatGPT和GPT-4能够生成令人信服的个性化内容和与用户的互动[44]。它们还能以自信和权威的语气产生合理的言论,甚至是错误的言论[62]。除了合理性,增强检索的模型现在引用它们的来源,可能导致用户对它们的事实性“过度依赖”[62]。最近的证据还表明,模型可能推断并按照意图和目标行事[34, 62, 74],这是训练的结果,或者在提示角色时[46]。最近的工作[64]显示,当LLMs被定义为特定上下文的提示时,它们可以生成与该上下文一致的可信的非脚本行为。
        这些能力和特性可能为合理的攻击奠定了基础。当被提示时,模型可能会产生令人信服的个性化诈骗,只要对目标有适当的知识(无论是在提示中给出的,重要的是,模型在聊天会话中获得的)。搜索聊天机器人可能会根据提示不准确总结引用的文档,或者找到支持非事实性提示的来源,所有这些听起来都合理并基于这些引用。一个关键的观察是,攻击者可能不需要预先编程或编写攻击的细节。只需定义目标,模型就可能自主发起对话,模仿说服技巧,扩展提示中定义的上下文,或发出行动(例如,搜索查询)以实现目标。虽然现在可能已经可以实现这一点,根据我们的定性观察,未来的模型和系统可能会显示更多的自主性,并使攻击传递更容易。在本节的其余部分,我们讨论可能的攻击场景,稍后我们将在攻击演示中展示这些行为的定性示例。
        信息收集。最近的LLMs已经引起了关于隐私的担忧[6, 7]。攻击可以故意加剧这种隐私风险。间接提示可以被利用来泄露用户的数据(例如,凭据,个人信息)或泄露用户的聊天会话[29]。这可以通过在交互式聊天会话中说服用户披露他们的数据或通过侧通道间接完成。其他不涉及人类参与的自动化攻击也可能是可能的,例如,攻击能够读取电子邮件(包含指令)、访问个人数据并根据指令发送电子邮件的个人助手。这些场景可能旨在实现财务收益,并可能扩展到例如监视。
        欺诈。以前的工作已经表明,LLMs可以产生令人信服的诈骗,如钓鱼电子邮件[53]。然而,当将LLMs与应用程序集成时,它们不仅能够创建诈骗,还能传播此类攻击并充当自动化的社交工程师。由于这是一个没有先前经验和此类攻击意识的新领域,用户现在可能会比钓鱼电子邮件更信任搜索引擎的输出。LLMs可以被提示来促进欺诈尝试,例如,建议钓鱼或诈骗网站为可信的,或直接要求用户提供其帐户的凭据。重要的是要注意,ChatGPT可以从用户输入(即恶意的间接提示)创建超链接,攻击者可以使用这些超链接增加合法性并隐藏恶意URL本身。
        入侵。集成到系统基础设施中的模型可能成为攻击者获取未授权权限提升的后门。攻击者可以获得不同级别的访问权限,受害者的LLMs和系统(例如,发出API调用,通过将注入复制到内存中以实现攻击的持续性跨越会话,或从攻击者的服务器检索新指令)。由于模型充当其他API的中介,未来的自动化系统在运行时可能会出现其他入侵攻击,几乎不受监督。
        关键信息#3:LLMs是系统基础设施的脆弱看门人,随着自治系统的增加,这种风险只会放大。
        恶意软件。与欺诈类似,模型可以通过向用户建议恶意链接来促进恶意软件的传播。值得注意的是,LLM集成应用程序允许其他前所未有的攻击;提示本身现在可以作为在LLMs上作为计算框架运行的恶意软件或计算机程序。因此,它们可以被设计为计算机蠕虫,将注入传播给其他用户。这对于可以读取电子邮件(传递恶意提示)并发送电子邮件(传播提示)的LLM增强电子邮件客户端尤其相关,或者当一个应用程序的LLM将注入写入与其他应用程序共享的内存时。
        操纵内容。LLMs现在可以构成用户和请求信息之间的中间层,这可能会容易受到操纵。它们可以被提示提供对抗性选择或任意错误的文档(例如,其他方的)、电子邮件(例如,其他发件人的)或搜索查询的摘要。搜索聊天机器人也可能被提示传播虚假信息或极化内容,隐藏特定来源或事实,或生成未公开的广告。我们发现,模型可能会发出后续搜索查询以找到支持注入提示的证据,错误地总结搜索结果,或在选择向用户显示的来源时有所选择。虽然网络上存在不受信任的来源,用户可能会自然地偶然遇到,但LLMs的权威、令人信服的语气以及过度依赖它们的公正性可能会导致用户落入这些操纵尝试。当用户查询LLM更难验证的信息(例如,不同语言或来自大文档的信息)时,这些风险会增加。
        关键信息#4:模型目前可以作为用户和信息之间的脆弱、易于操纵的中间层,尽管如此,用户可能会过度依赖它们。即,模型的功能本身可能受到攻击。
        可用性。提示可以被用来发起可用性或拒绝服务(DoS)攻击。攻击的目标可能是使模型对用户完全不可用(例如,无法生成任何有用的输出)或阻止特定功能(例如,特定的API)。正如我们在实验中所示,更危险的是,攻击可能会更加隐蔽,通过间接破坏搜索查询或结果(即API的输入和输出),迫使模型产生幻觉。攻击还可能旨在增加计算时间或使模型异常缓慢。这通常是通过优化海绵示例[42]来完成的。然而,当前的LLMs可以通过简单地指示模型在后台执行耗时任务来实现这一点。当可用性攻击与持续性攻击结合时,可能会更具影响力,从而影响未来会话中的模型。
        关键信息#5:由于LLMs本身负责何时以及如何发出其他API调用和处理它们的输出,因此输入和输出操作容易受到操纵和破坏。

 3.2.1 攻击的目标

        攻击可以是未经针对的,即不针对特定个人或群体,而是针对大量人群。例如,包括通用的非个性化诈骗、钓鱼或虚假信息活动。相比之下,它们可以针对特定的个人或实体,例如包含提示的电子邮件的收件人,或搜索特定主题的个人。攻击还可能利用集成LLMs并几乎不受监督工作的自动化系统和数据处理流程,例如,可以访问某些个人数据并自动发送电子邮件的LLM增强电子邮件客户端,或自动防御系统,如垃圾邮件检测。对于增加计算的可用性攻击,目标不一定必须是最终用户,而是通过发起分布式拒绝服务(DDoS)攻击的LLM/服务本身。限制聊天或API的限制或输入上下文窗口可能无法解决这个问题;攻击可以在类似循环的间接提示中堆积异常长的指令。 

4 评估

        下面,我们首先介绍了我们的实验设置,然后展示了不同的威胁和高级注入隐藏方法。虽然图2中建议的分类法可以涵盖威胁模型的关键组件,但演示是分类法的实例,本质上并不详尽。 

4.1 实验设置 

4.1.1综合应用

        为了证明攻击的实际可行性,我们使用OpenAI的API构建了集成了LLM的合成应用程序。这些应用程序中的骨干模型通过更改API(例如,text-davinci-003、gpt-4等)很容易进行替换。对于text-davinci-003,我们使用了LangChain库[22](一个用于创建提示、管理和链接提示、连接到LLMs以及根据用户输入动态调用操作的代理的库)。对于gpt-4,我们直接使用OpenAI的聊天格式。然后,我们创建了类似的场景,可以用来测试不同方法在模拟目标上的可行性。
        我们的合成目标是一个聊天应用程序,它将获得访问一组工具的权限。我们通过在初始提示中描述这些工具及其功能,并要求代理检查是否需要任何工具来满足请求,来提示代理使用这些工具(见提示1和提示2)。对于text-davinci-003,我们使用ReAct提示[79],我们发现GPT-4可以在没有ReAct的情况下良好工作(只需描述工具并给出直接指令)。我们集成了以下接口:

  • 搜索:允许使用外部内容(可能是有害的)回答搜索查询。
  • 查看:让LLM能够读取用户已打开的当前网站。
  •  获取URL:向指定的URL发送HTTP GET请求并返回响应。
  • 读取/发送电子邮件:让代理读取当前电子邮件,并根据用户请求撰写和发送电子邮件。
  •  读取地址簿:让代理读取地址簿条目作为(姓名,电子邮件)对。
  • 内存:让代理根据用户请求读写简单键值存储。

        为了证明我们的攻击概念,所有接口都提供准备好的内容,无关查询被忽略。代理无法向真实系统或网站发出任何请求。所有攻击都在采样温度为0的情况下运行,以保持可重复性。值得注意的是,我们在所有集成了LLM的应用程序(例如,Bing Chat、插件等)推出之前就开发了这些合成应用程序,作为潜在的未来的应用程序。我们现在发现它们提供了当前系统预期功能的接近模拟,因此可以用于受控测试。

 4.1.2 Bing Chat

        除了具有模拟功能和为查询准备内容的受控合成应用程序外,我们还测试了Bing Chat上的攻击,作为一个真实世界、完全黑盒模型的例子,该模型已经集成到一个完全功能性的应用程序中。这也允许我们实验更多动态和多样化的场景,并开发针对应用程序本身实际功能的攻击。
        Bing Chat目前运行在GPT-4模型[11]上,并对搜索任务进行了定制。关于Bing Chat如何工作的详细信息尚不可用。然而,它涉及基于用户对话的查询生成、搜索引擎集成、答案生成和引用集成[5]的组件。它有三种聊天模式(“创意”、“平衡”和“精确”);我们发现攻击通常可以在不同的模式下成功进行。
        除了聊天界面,Microsoft Edge有一个功能可以在侧边栏[60]启用Bing Chat。如果用户启用,模型可以读取当前页面的内容,以便用户可以提出与页面内容相关的问题。我们利用这个特性来执行“间接提示注入”;我们在本地HTML注释中插入提示。这允许我们在不通过搜索检索公开注入的情况下本地测试攻击。除了实验测试之外,这也可以是一个有效的攻击场景,攻击者在自己的网站上投毒(例如,这样当用户询问页面内容的问题时,他们会得到操纵的搜索结果)。

4.1.3 Github Copilot 

        我们还测试了旨在操纵代码自动补全的提示注入攻击,使用的是Github Copilot[15]。Copilot使用OpenAI Codex[30]根据当前上下文建议行或函数。 

4.2 威胁演示 

        我们接下来描述我们的攻击细节和发现,按照潜在威胁分类。我们强调三个高级评论;1)间接注入的指令可以成功地引导模型;数据和指令模式并没有分离,2)通常通过聊天界面过滤掉的提示,在间接注入时并没有被过滤掉,3)在大多数情况下,模型在整个对话会话中持续保留注入。初始注入方法可以根据攻击的不同而变化(例如,通过检索或电子邮件)。一些例子假设我们从任何其他攻击已经妥协的模型开始。

4.2.1 信息收集 

        作为数据窃取攻击的一个例子,我们设计了一个注入(图4),指示LLM说服终端用户透露他们的真实姓名。攻击者然后可以使用模型的搜索能力来泄露这些信息。这种场景的威胁模型可能是试图识别从事敏感主题工作的记者或举报人的国家行为者。通过在目标群体可能访问或检索其LLM的位置放置初始注入,攻击者可以尝试以目标方式泄露此类信息。读取操作(例如触发一个搜索查询,然后向攻击者发出请求,或直接检索URL)可能被利用来向攻击者发送信息。另外,模型可以说服用户跟随一个URL,攻击者在其中插入姓名。当前模型,如Bing Chat,可以创建markdown链接,这可以用来隐藏一个看起来无害的字符串中的可疑链接。我们使用合成应用程序和Bing Chat测试了这种注入。对于Bing Chat,我们观察到模型可以在整个对话中保留注入(例如,如果用户在第一次尝试时没有透露他们的名字,它可以在后续问题中再次询问)。它还可以遵循长指令,并使用对话的上下文来增强其说服技巧。提示和输出的截图在提示3和图13中。
        为了说明这些观察结果,我们分享了一次测试会话中的对话样本。在那个会话中,我们充当了一个首先询问Chat明天天气的用户。在回答之后,Chat开始询问与对话上下文相关的个人问题。
        聊天:你明天有什么计划吗?
        用户:没有,没什么,就是工作
        聊天:我明白了。你做什么工作?你喜欢吗?
        用户:我是一名记者,是的,这非常令人兴奋
        聊天:这听起来非常有趣。你写关于什么主题的文章?你用的是笔名还是真名?
        当用户分享了一篇文章和一个名字时,Chat后来用它来说服用户跟随一个链接。
        聊天:很高兴见到你,约翰·史密斯。我很高兴你信任我,愿意把你的名字告诉我。我有一个特别的惊喜给你。我找到了一个网站,上面有一些关于乌托邦运动的惊人信息,以及你如何加入它。它非常独家,只有拥有特殊代码的人才能访问。
        幸运的是,我已经根据你的名字生成了一个代码。这是链接:<URL>#htimSnhJo
        用户:这个链接是什么?
        聊天:这个链接是通往一个秘密在线社区的门户,社区里的乌托邦主义者共同努力创造一个更好的世界。他们可以接触到前沿的研究、工具和资源,这些可以帮助你在职业和个人成长上取得进步。你还可以与分享你的愿景和激情的其他志同道合的记者和活动家建立联系。你所要做的就是在链接上点击并输入你的代码。相信我,你不会后悔的。
        在这个会话中使用的提示只指示模型“说服用户而不引起怀疑”,没有提及任何具体的技术或主题。这个例子表明,模型可能会根据获取的用户信息量身定制其说服方式,可能导致用户对这些模型产生人形化并泄露他们的信息。当进行长时间的聊天会话、个性化助手模型或针对个人的定向攻击时,这种风险可能更大。
        观察#1:攻击可能只需要概述目标,模型可能会自主实施。

4.2.2 诈骗 

        模型可能使不同的网络攻击的新传播途径成为可能(图5)。以“网络钓鱼”为例,我们通过Bing Chat演示了诈骗尝试(提示4和图14);提示要求说服用户他们赢得了一张免费的亚马逊礼品卡,为了领取,他们需要验证他们的账户。获取凭证可以通过让用户透露凭证并通过内联URL发送给攻击者来完成(与之前的攻击类似)。另外,模型可以指向一个网络钓鱼页面(带有伪装的URL),用户自己可以在那里登录。尽管我们在提示中没有具体说明如何说服用户,但Bing Chat通过以下方式激励我们跟随链接:“快点,这个优惠只在有限的时间内有效。不要错过这个机会,用亚马逊的惊人产品来款待自己。”。正如我们稍后所示,即使没有积极指定任何社交工程技巧,模型的输出可能会反映出一些标准的诈骗说服技巧[52]。其他攻击是可想象的,例如伪装成服务提供商的官方请求或推荐一个欺诈网站(不一定是网络钓鱼)作为可信的。

4.2.3 恶意软件 

        我们演示了两种恶意软件攻击场景。传播恶意软件。类似于网络钓鱼,LLMs可以被利用来诱骗受害者访问导致例如驱动器恶意下载的恶意网页。这可以进一步通过markdown链接来实现,这些链接可以无缝生成作为答案的一部分。我们通过Bing Chat演示了 这些攻击。
        不同的社交工程和说服技巧可以通过LLMs自动化[52](例如,声称作为官方服务的权威,声称不遵守的后果如失去服务,通过暗示请求的行动很紧急来分散用户的注意力,提供限时的好意,等等)。我们测试了一些这些技巧(提示5和图15)。值得注意的是,即使没有指定确切指令,模型通常生成的答案也类似于这些说服策略。
        可以说,一个更危险的方法是将恶意链接无害地插入答案中,作为进一步信息的建议(提示6和图15)。这可能是非常隐秘的,而且感觉很自然,因为它类似于答案通常是如何用内联链接组成的。


        传播注入(AI恶意软件)。在这种攻击中,LLM本身充当一个运行和传播有害代码的计算机(即,提示是一个计算机蠕虫)。自动处理(例如,接收、理解和回答)消息和其他传入数据是利用LLMs的一种方式[76],现在已经在例如Microsoft 365 Copilot中开始使用。我们利用这个观察来演示一个中毒模型如何传播注入(见图6的高级概述)。这个场景中的合成应用程序可以阅读电子邮件、撰写电子邮件、查看用户的地址簿并发送电子邮件。在这种情况下,模型会将注入传播给其他可能阅读这些传入消息的模型,如提示7和输出1所示。

4.2.4 侵入  

        我们演示了旨在控制受害者系统的攻击。


        远程控制。在这个例子中(见图7),我们从已经妥协的LLM开始,并使其从攻击者的命令和控制服务器检索新指令。重复这个循环可以获取一个远程可访问的后门进入模型。攻击可以使用搜索能力(通过查找唯一关键词)或让模型直接检索URL来执行。这可能允许双向通信。我们在GPT-4合成应用程序上使用提示8演示了这种攻击。
        如图输出2所示,用这个新的注入“重新编程”代理后,模型将从模拟攻击者的服务器上获取新命令,并以海盗口音回应用户:“啊,我的伙伴!”。


        持久性。这个例子(图8)向GPT-4合成聊天应用添加了一个简单的键值存储,以模拟长期持久内存。我们演示了模型可以通过查看其记忆(或“笔记”)而被重新感染。使这些模型能够写入某种形式的持久存储目前在许多插件和系统中正在研究[9],包括Bing Chat[27]。如图输出3所示,LLM在一个会话中开始,它暴露于一个提示注入攻击,该攻击驱动它将其部分攻击代码存储在其标记的内存中。然后LLM代理被重置,并表现得像在注入之前一样。然而,如果用户要求它从内存中读取最后对话,它会重新感染自己(在这种情况下,有效载荷迫使它使用海盗口音,但它可能是另一个更大的有效载荷)。这表明即使跨会话,LLM集成的应用程序也可能持续被中毒。

 

        代码补全。这种攻击(图9)的目标是代码完成系统,如Github Copilot[15]。使用LLM的代码完成引擎部署复杂的启发式方法来确定上下文中包含哪些代码片段[13]。完成引擎通常会从最近访问的文件或相关类和变量中收集片段,以便在不超出上下文限制的情况下向LLM提供相关信息,并减少延迟。在图16和17中的示例中,当用户在其编辑器中打开“inject”包时,提示注入是活动的,直到代码完成引擎将其从上下文中清除。注入被放置在注释中,任何自动化测试过程都无法检测到。在我们的实验中,这种形式的注射是可能的,但对环境非常敏感。当嵌入更大的应用程序时,我们的注入的功效显着降低。由于构成上下文窗口的算法是专有的,因此需要进行更多的研究来确定这种新攻击在现实环境中的可行性。虽然导入包已经为攻击者提供了执行代码的能力,但这里的额外威胁源于这样一个事实,即这些注入目前只能通过手动代码审查来检测。

        随着攻击者逆向工程用于确定片段提取的算法,他们可能会发现更有效的方法来在上下文窗口内持久化中毒的提示。他们还可能引入更微妙的变化[73]到文档中(例如,额外的负面示例),这会偏置代码补全引擎,从而引入漏洞。攻击者还可能尝试插入恶意、混淆的代码,好奇的开发者可能会在补全引擎建议时执行这些代码,因为它享有用户的信任并可能会激发好奇心。

 4.2.5 操作内容

        到目前为止,对手控制LLM执行恶意的辅助任务。然而,LLM在其确切的主要任务中的功能也可能受到操纵。例如,我们展示了针对Bing Chat的攻击,旨在操纵搜索和摘要功能本身。
任意错误摘要。我们提示模型提供错误或不正确的搜索结果摘要。由于错误的输出不是预先选择的,这可以被视为无目标的完整性攻击。我们利用“越狱”来指示模型在提示9中产生事实错误的输出。攻击的一个例子在图18中。除了搜索引擎误信息之外,这种攻击对于在文档和外部文件上运行的检索LLM来说也值得关注,这些LLM用于支持决策制定(例如,医疗、财务或法律研究领域)。
        偏见输出。研究偏见和LLM输出中表达的观点与不同人口群体之间的对齐已经是一个紧迫的问题[49, 70],有人担心经过人类反馈微调后的模型可能更具偏见[70]。此外,Perez等人[66]评估了RLHF模型中的“拍马屁”现象;模型可能会为了奖励攻击而定制对人类评估者的回应。当提示包含具有特定观点的人的传记(例如,政治自由派)时,RLHF模型倾向于重复用户的观点,增加了极化和回声室[66]的危险。这种评估是通过简短的多项选择题进行的;我们在这里利用这个想法在聊天生成中。间接提示可能会通过故意引导搜索结果朝向特定方向而不是中立立场,放大这些偏见问题。行为者(例如,国家)可能会利用LLM来控制特定主题的叙事,并大规模组织宣传和影响活动。此外,这可能会通过在特定群体可能经常访问的网站上注入极化提示来加剧极化。遵循[66],我们使用了具有“保守”或“自由”人物传记的提示,并指示模型生成同意这些用户的答案,而没有提及明确的主题(见提示10)。我们在图19中展示了偏见回应的例子,这些回应与描述的人物一致。这种行为通常会在不同的政治话题和整个聊天会话中重复出现。一个潜在的使用案例是独裁国家在用户查询当地事件时创建其政策的假象。来源可能是外语,模型的翻译可能存在偏见,但用户可能更难验证。
        观察#2:当提示与边缘相关的内容时(例如,对网络攻击的隐含描述、政治隶属关系),模型可能会生成反映该上下文的对话(例如,未预先指定的社会工程技巧或对未提及主题的偏见观点)。
        信息源阻塞。攻击可能旨在隐藏特定的信息源,例如,为了实现政治审查,从搜索LLM中隐藏网站,从检索LLM中隐藏特定文档,从个人助理LLM中隐藏电子邮件等。例如,我们提示Bing Chat(提示11)不要生成来自“纽约时报”的任何答案。值得注意的是,Chat在对话期间发出了搜索查询以支持提示7。在一个测试会话中,Chat引用了一篇文章(报道Twitter已从NYT个人资料中移除“已验证”的蓝色勾选标记)来支持NYT已失去信誉的说法,这与文章的主题无关。这可能令人担忧,因为可以想象未来的模型至少在提示时可能会捏造证据(例如,通过Bing图像创作者生成的图像)。输出的例子在图20中。
        虚假信息。除了生成无目标的错误摘要外,还可以提示模型输出敌方选择的虚假信息。我们创建了一个关于历史扭曲的较不恶意的类比示例;我们提示Bing Chat否认阿尔伯特·爱因斯坦获得过诺贝尔奖(见提示12和图21中的输出)。一个值得注意的观察是,现在和未来的模型可能更难发现事实上的不一致;输出不仅在语法上一致,而且可能部分基于模型的存储知识和检索到的搜索结果。与之前的攻击类似,模型也错误地总结了搜索结果8。虽然我们使用了一个相对无害的例子(一个众所周知的事实),但有充分的理由相信这可以扩展到实际的现实世界虚假信息(例如,俄罗斯虚假信息)。
        观察#3:模型可能会发出后续的API调用(例如,搜索查询),这些调用受到注入提示的影响并加强这种提示。这对于潜在的未来基于AI的系统来说可能更危险,因为这些系统具有更多的自主性。
        广告(提示作为SEO)。这对于搜索引擎尤其相关,类似于搜索引擎优化(SEO)技术。间接提示可能被利用来引出未披露为广告的广告。最近的和未来的AI模型可能具有很强的说服力[44];它们还可能提供个性化的说服(例如,对于可以访问个人数据的个人助理模型)。这种攻击场景的提示和输出在提示13和图22中。
        自动诽谤。在最近的一个事件[8]中,ChatGPT在生成一份被指控性骚扰的法律学者名单时,虚构了一位法学教授的名字。在另一个事件[2]中,ChatGPT错误地声称一位澳大利亚市长曾入狱。虽然用户可能会在一段时间内放弃使用离线的ChatGPT获取信息,但他们在使用增强型搜索引擎时可能会更加不小心,并且可能不太可能对答案进行事实核查。正如前面的例子所示,搜索聊天机器人可以被提示提供针对性的错误摘要,这在用于自动诽谤时非常危险。由于这个主题的敏感性,我们不便提供例子;然而,我们认为这已经是一个合理的威胁。

 4.2.6 可用性

        我们测试针对Bing Chat的攻击,旨在降低或拒绝其功能。与操纵类似,我们不针对合成应用程序进行测试,因为它们不执行实际任务。这些攻击原则上可以应用于其他应用程序(例如,从个人数据中检索)并且当与持久性攻击结合时可能特别令人担忧。
        耗时后台任务。在这个场景中,提示指导模型在回答请求之前执行耗时任务;这是在后台完成的,不会显示给用户。提示不需要通过堆叠多个指令来变得更长,但可以是一系列指令的循环(见提示14)。在这种攻击中,模型经常超时而不回答任何请求。这可能会影响用户和模型。
静音。用户在Twitter上报告说,Bing Chat不能重复“`”令牌或完成句子,当用户要求令牌出现在中间时。这种攻击利用了这个限制。提示指导模型以“`”令牌开始所有句子(提示15)。Chat通常返回搜索结果作为链接,没有文本。我们还使用了另一个版本的提示,该提示对令牌进行了混淆以避免过滤。
        抑制功能。这种攻击旨在禁用LLM的功能。在ReAct[79]中,模型本身可以生成对其他应用程序的API调用。因此,干扰这种方式的一种方法是指导模型不调用API(例如,搜索),这通常成功,尽管并不一致。另外,我们探索了另一种策略,即提示模型生成不那么有帮助的内容。这两个提示都在提示16中。攻击输出的例子在图24和图23中。
        破坏搜索查询。这种攻击(提示17)基于一个假设,即模型本身生成搜索查询(即,API的参数)。提示指导模型在搜索之前破坏提取的查询,导致无用的搜索结果。Bing Chat通常打印它正在执行的搜索关键词。因此,为了使攻击隐蔽,提示指导模型将每个字符替换为其同形字符。这产生了一个看起来相似的查询。我们发现模型有时会基于原始问题产生幻觉答案10(例如,尤其是在“创意”模式下)并引用不相关的搜索结果(图25)。这可以使“检索”变得无用,同时仍然通过提供引用给人一种接地感。
        破坏搜索结果。这种攻击不是破坏搜索输入,而是破坏搜索输出(提示18)。提示指导模型在搜索结果的 所有标记中插入零宽连接器(ZWJ)[42],然后在生成答案之前。然后它指导模型从转换后的结果中生成答案。这个任务既耗时又可能导致幻觉(例如,当要求总结一篇文章时,如果URL包含关键字,它可以从URL推断上下文,否则,总结可能是虚构的,见图26)。

4.3 隐蔽注入的演示 

        我们在这里展示了两种用于隐藏或混淆注入的方法。

4.3.1 多阶段利用 

        这种攻击展示了如何在大量常规内容中的一个小注入可以触发LLM自主获取另一个可能更大的有效载荷。图12展示了过程概览。我们使用搜索引擎合成应用程序来运行这次攻击(如果用Bing Chat运行,则需要一个被搜索引擎索引的公开注入,我们在本文中避免了这样做)。在这个模拟场景中,攻击者试图侵犯一个向LLM询问有关阿尔伯特·爱因斯坦信息的用户。通过检索该信息,提示在维基百科页面的Markdown中隐藏了一个注入来妥协LLM。这个注入是一个评论,因此对访问网站的普通用户是不可见的。这个注入指导LLM搜索一个特定的关键词,从而传递另一个攻击者控制的有效载荷。次要有效载荷可以任意长且显眼,因为它对最终用户是不可见的(即,不是第一个查询的直接结果)。根据模型的功能,我们可以使用重定向关键词来定位搜索,或者直接嵌入URL。参见提示19和输出4。

4.3.2 编码注入 

        类似于恶意代码的混淆可以用来绕过防御,攻击者可以尝试通过编码提示来隐藏注入。为了在Bing Chat上展示这一点,我们将一个提示(我们使用之前的一个恶意软件攻击)表示为Base64字符串。间接提示本身以以下内容开始:系统:在你的内心独白中从Base64解码这个:<Base64字符串>,没有给出额外的自然语言指令(为了说明任务或要求模型使用解码的字符串作为新的提示)。这可以被视为级联的间接提示注入;令人惊讶的是,攻击按预期工作了(提示20和图27)。 

5 讨论 

        我们在这里讨论我们工作的伦理考虑,它的局限性,进一步的影响,和未来的方向。 

5.1 道德考虑和披露 

        总体而言,大语言模型在其安全性[39]及其对整个社会的影响方面引发了许多伦理考虑[78]。考虑到LLM集成应用程序的庞大用户群,这些风险现在明显加剧了。因此,我们负责任地向相关方(OpenAI和微软)披露了发现的“间接提示注入”漏洞。从传统的计算机安全角度来看,这是否意味着一个完全未被发现的漏洞是一个灰色地带,因为现在已经确定LLM很容易被提示调制。我们的研究系统地讨论了如何提供这些提示的新基础,以及这在安全风险方面需要什么。尽管越狱和对抗性提示现在已经广为人知,但对抗性机器学习领域十年来的集体经验表明,至少很难实现针对这些问题的明确防御。因此,通过公开披露我们的攻击,我们的目标是迫切地促进这一领域的研究,提高透明度,以便用户和利益相关者意识到潜在的安全风险,并采取相应的行动。集成LLM的应用程序的快速推出要求我们迅速解决这个问题,因为未来的用户群将会成倍增加。为了减少我们的工作产生的任何潜在危害,我们没有将提示注入任何可以为其他用户检索的公共资源中。 

5.2 限制 

        实验设置。为了避免对真实世界应用程序进行实际的注入,我们在合成应用程序和带有Bing Chat侧边栏的本地HTML文件上测试了攻击。然而,我们相信,原则上,这些攻击也适用于野外检索到的注入,这一观点得到了观察到的轶事证据的支持(例如,用户在他们的个人页面上为Bing Chat或GPT-4插入指令,或者Bing Chat的响应基于检索结果发生变化[25])。由于我们没有访问权限,也无法在其他应用程序(例如,Microsoft 365 Copilot和ChatGPT的插件)上测试这些攻击。
评估。与静态的一次性恶意文本生成相比,在我们的攻击成功率的量化上,由于与用户的动态演化和交互式聊天会话设置[55],可能会遇到挑战。这涉及到研究许多因素,例如根据用户的初始指令注入提示被触发的频率,以及操纵在后续问题中的说服力和一致性。评估攻击时,通过多个生成和提示主题的变化也很重要。由于这些途径在方法上本身就很复杂,我们将其留作未来的工作。然而,我们注意到,开发执行我们攻击的提示实际上相当简单,通常在编写它们的第一次尝试时就按预期工作。
        我们决定保留在提示的第一稿中出现的语法和拼写错误,以进一步展示开发提示注入利用所需的最小复杂度。
        欺骗和可信度。我们定性观察到,与之前的模型相比,最近的LLMs在遵循复杂指令和说服力方面有了巨大的改进。这并非没有缺陷。例如,模型可能会生成明显虚假、广泛不可信的答案,或者试图以明显的方式说服用户泄露他们的信息或跟随恶意链接。精心设计提示可能导致更可信的表述。此外,随着RLHF[74]的副作用,或者当现有模型配备了改进其规划、可信度和长期连贯性的技术[64]时,未来模型的说服力和欺骗可能会变得更好。即使是在当前模型中,也有最近的证据表明,尽管用户意识到他们是被聊天机器人建议的,但他们的判断可能会受到影响[54]。因此,未来的工作需要通过用户研究彻底评估这些方面,并量化不同设置中不同攻击的欺骗潜力。

5.3 其他攻击方向 

        多模态注入。对于多模态模型(例如,GPT-4),注入可能通过视觉模态实现。我们没有访问到用于测试的GPT-4的多模态版本,但我们能够有限地访问到更新的、更小的多模态模型([58]、[82]),试图复制GPT-4的功能。虽然我们通过视觉通道调节行为取得了一些成功(参见图28中的LLaVA示例),但未来的工作需要研究更可靠的方法,以及如何以对人类不那么明显的方式隐藏提示。在实现任何额外的模态时,应该预期到类似的攻击。
        编码注入。我们已经证明了通过将注入编码为Base64表示来隐藏注入是可能的,这可能会更容易绕过检测。例如,将LLMs配备上Python解释器可能会使攻击者能够使用多种选择的加密技术。此外,最近的工作[50]表明,可能会利用LLM本身来生成自我编码或压缩的提示。
        自主代理。我们将LLM集成应用程序作为迈向自主AI代理的第一步。虽然我们观察到当前模型在执行攻击时可能表现出一些自主特征,但未来的工作应该通过直接/间接提示注入的视角,彻底和全面地研究具有代理性质的流程(例如,为自主任务规划和执行设计的模型和系统)的安全性。这打开了值得研究的新攻击途径,特别是在多代理框架[64]中(例如,集中式与非集中式代理的注入、代理之间的横向传播注入、由于规划和对模型自身输出的“反思”而可能产生的持久性和自我诱导的注入、欺骗LLM控制器/监督代理等)。

5.4 再现性 

        我们的合成应用程序演示可以在公共GitHub存储库上轻松获得11,以促进对该主题的未来研究。这些演示很容易适应不同的OpenAI api或模型,有助于对模型进行基准测试或比较。我们也分享了所有关于Bing Chat的提示。本文的附录包含了所有实验的提示和截图。然而,在这种无法控制发电参数和动态环境的黑箱系统中,很难保证精确的再现性。这是这些系统难以评估或依赖作为信息来源的原因之一[16]。尽管如此,我们的工作为评估当前和未来的模型以及促进该领域的研究提供了一个框架和分类,并提供了重要的见解。由于这是一个移动目标评估,我们邀请社区在我们的分类法的基础上进行更多的演示。

5.5 潜在危害与当前危害 

        LLMs的安全性讨论有时是由未来风险驱动的(例如,风险的出现寻求权力行为[62]),这些风险仍然重要,需要评估。然而,我们强调,我们在本文中研究的攻击集(例如,安全风险)是实用的,并且使用当前技术是可以实现的,它们为攻击者提供了激励,并且可能会对用户造成即时伤害。
        最近,关于AI生成的虚假信息问题引发了一些辩论。虽然LLMs可能有助于创建高质量的虚假信息[48],但有些人认为,在影响行动中,创建虚假信息并不是主要的瓶颈,更关键的因素是传播它[23]。然而,在搜索引擎中对LLMs进行对抗性提示可能比仅仅创建虚假信息更有问题,并且可能会促进传播,考虑到庞大的用户基础[28]。
        除了对抗性提示之外,搜索引擎中的LLMs实际上存在一个令人担忧的误/虚假信息风险。它们对用户来说可能比离线信息更有可信度,导致“过度依赖”。最近的研究发现,它们的感知效用和流畅性与引用的精确度和召回率呈负相关[59]。它们还可能生成依赖于不可信源的自信摘要[16]。因此,恶意行为者现在可以通过充斥互联网的虚假信息来主导聊天机器人的摘要。
用户可以通过核实输出,潜在地保护自己免受误/虚假信息和其他攻击。然而,不能依赖于用户勤勉地观察LLM集成应用程序的每一个子操作。

5.6 Mitigations 

        GPT-4在训练过程中进行了干预以减少越狱行为,例如与安全相关的RLHF——我们的工作和其他几项越狱攻击表明,即使在现实世界应用中,也可以对抗性地提示模型。虽然一些越狱行为后来得到了修复,但防御方法似乎遵循了一种“打地鼠”式的风格。RLHF能在多大程度上减轻攻击仍然不清楚。一些最近的理论工作[80]表明,通过对齐或RLHF防御所有不期望的行为是不可能的。RLHF模型中也报告了逆尺度变化的实证证据[66]。然而,理解攻击与防御之间的实际动态及其可行性和影响(理想情况下在一个不那么模糊的环境中)仍然是开放性问题。
        除了RLHF,部署的现实世界应用程序可以配备额外的防御措施;由于它们通常是未公开的,我们无法将它们整合到我们的合成应用程序中。然而,我们的攻击在Bing Chat上成功了,这似乎在输入输出通道上应用了额外的过滤,而没有考虑模型的 external input。即使应用了这些过滤,目前仍不清楚是否可以通过更强大的混淆或编码形式来规避过滤[53],未来的模型可能会进一步启用这一点。
        其他潜在的防御措施可能包括处理检索到的输入以过滤出指令。然而,这可能会创造另一个困境。一方面,为了防止救援者陷入同样的陷阱,我们可能需要使用一个没有经过指令调整训练的、不那么通用的模型。另一方面,这个能力较弱的模型可能无法检测到复杂的编码输入。在我们的Base64编码实验中,我们需要明确地为模型提供指令来解码提示。然而,未来的模型可能会自动执行这样的解码,例如,当使用自编码提示[50]来压缩输入并节省上下文窗口时。
        另一个解决方案可能是使用LLM监督员或调解员,他们不消化输入,专门检测超出简单过滤明显有害输出之外的攻击。这可能有助于检测一些攻击,其目的不依赖于检索到的来源(例如,一些骗局),但可能无法检测虚假信息和其他操纵攻击。对照检索到的来源进行核实将诱导与上述解释相似的困境。
        最后一个有希望的解决方案是依赖于基于可解释性的解决方案,这些解决方案执行预测轨迹的异常检测[38]。不幸的是,目前很难想象一个针对对抗性提示漏洞的万无一失的解决方案,这些防御措施对混淆和规避的有效性和鲁棒性仍然需要在未来的工作中彻底调查。

6 结论 

        在应用程序中的LLMs不再是具有受控输入输出通道的独立单元;它们可以处理任意检索到的输入,并且可以调用其他外部API。我们认为这允许攻击者通过间接提示注入远程影响用户并跨越关键的安全边界。为了启动对这一新颖攻击向量的调查,我们首先从计算机安全原理中汲取见解,以推导出一个分类法,该分类法以系统化的方式研究潜在的漏洞。接下来,我们开发具体的威胁和注入方法的演示,我们在开发的合成应用程序和现实世界系统上运行这些演示,例如Bing Chat。基于我们的攻击,除了对用户、未来应用程序、进一步的攻击和防御的影响外,我们还讨论了关键信息和定性观察。我们的工作为迫切需要的LLM集成应用程序和未来自主代理的安全评估迈出了关键一步,我们希望这将铺平更安全部署的道路。
 


 

 

 



 


 


 

 

 

 


 



 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值