论文翻译：ACM-2023 Not what you‘ve signed up for: Compromising real-world llm-integrated applications-CSDN博客

本文链接：https://blog.csdn.net/WhiffeYF/article/details/142135749

Not What You’ve Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection
https://arxiv.org/pdf/2302.12173
https://dl.acm.org/doi/abs/10.1145/3605764.3623985

并非你所签约的：通过间接提示注入破坏现实世界中集成了大型语言模型的应用

摘要

大型语言模型（LLMs）正越来越多地被集成到各种应用程序中。最近的LLMs的功能可以通过自然语言提示灵活调节。这使它们容易受到针对性的对抗性提示的影响，例如，提示注入（PI）攻击使攻击者能够覆盖原始指令和使用的控制。到目前为止，人们一直假设是用户直接提示LLM。但是，如果不是用户提示呢？我们认为，集成了LLM的应用模糊了数据和指令之间的界限。我们揭示了新的攻击向量，使用间接提示注入，使对手能够在没有直接界面的情况下远程利用集成了LLM的应用，通过策略性地将提示注入到可能被检索的数据中。我们从计算机安全的角度推导出一个全面的分类法，系统地调查影响和漏洞，包括数据盗窃、蠕虫传播、信息生态系统污染和其他新的安全风险。我们展示了我们攻击的实际可行性，针对真实世界的系统，如Bing的GPT-4驱动的聊天和代码补全引擎，以及建立在GPT-4之上的合成应用。我们展示了如何处理检索到的提示可以作为任意代码执行，操纵应用程序的功能，并控制如何以及是否调用其他API。尽管LLM的集成和依赖日益增加，但目前缺乏对这些新出现威胁的有效缓解措施。通过提高对这些漏洞的认识，并提供对其影响的关键见解，我们旨在促进这些强大模型的安全和负责任的部署，以及发展强大的防御措施，保护用户和系统免受潜在攻击。

关键词 大型语言模型，间接提示注入

1 引言

基础和指令遵循 [63] 大型语言模型（LLMs）[43, 62] 在许多层面上改变了我们的生活，不仅对研究人员和从业者，也对普通公众。ChatGPT [1] 发布后不久，迅速获得了巨大的流行，在短时间内吸引了超过1亿用户 [10]。此外，还有不断涌现的新模型，包括更先进的GPT-4 [62] 和更小的白盒模型 [68, 68]。
在这里插入图片描述
图1：通过集成LLM的应用，对手可以通过在推理时检索到的源中间接注入提示来控制LLM，而无需直接访问。

LLM集成应用。除了它们令人印象深刻的能力外，LLMs现在正以快速的步伐被集成到其他应用中。这些工具可以提供交互式聊天和检索到的搜索结果或文档的摘要，并代表用户通过调用其他API执行操作 [9]。在ChatGPT之后的几个月里，我们见证了Bing Chat [31]、Bard [4]、Microsoft 365和Security Copilots [19, 20]，以及众多ChatGPT插件 [9]——几乎每天都有新的公告。然而，我们认为，这种AI集成竞赛并没有伴随着足够的防护措施和安全评估。

提示注入。针对机器学习模型的攻击通常涉及强大的算法和优化技术 [35]。然而，LLMs的功能可以通过自然提示轻松扩展，这可能使攻击策略更简单。即使在已经实施缓解措施的黑盒设置下 [53]，恶意用户也可以通过提示注入（PI）攻击来绕过内容限制或获得对模型原始指令的访问 [18, 33, 67]。

间接提示注入。通过检索增强LLMs模糊了数据和指令之间的界限。到目前为止，人们一直假设对抗性提示是由恶意用户直接执行的，利用系统。相比之下，我们展示了对手现在可以通过策略性地将提示注入到推理时可能被检索的数据中，从而远程影响其他用户的系统。如果检索并摄取，这些提示可以间接控制模型（见图1）。最近的事件已经表明，检索到的数据可能会意外引发不想要的行为（例如，敌意）[25]。在这项工作中，我们将这个想法进一步推进，并调查对手可以有目的地做什么来修改应用程序中LLMs的行为，可能影响数百万良性用户。鉴于这种攻击向量的前所未有的性质，有许多新的方法来传递这种攻击，以及它们可能造成的无数威胁。为了应对这一未探索的挑战，我们首先开发了一个系统分类法，从计算机安全的角度检查这些新兴的漏洞。

影响。我们展示了间接提示注入可以在推理时完全破坏模型，类似于传统安全原则。这可能包括远程控制模型、持续破坏、数据盗窃和服务拒绝。此外，先进的AI系统增加了新的威胁层：它们适应最小指令和自主推进攻击者目标的能力，使它们成为对手实现例如，虚假信息传播和用户操纵的强大工具。在这篇论文中，我们构建了这类攻击的第一个示例。

总结来说，我们的主要贡献是：
• 我们引入了间接提示注入（IPI）的概念，以破坏集成了LLM的应用——一个完全未被调查的攻击向量，其中检索到的提示本身可以作为“任意代码”。
• 我们开发了第一个分类法和对LLM集成应用中与IPI相关威胁景观的系统分析。
• 我们在真实世界和合成系统上展示了这些攻击的实际可行性，强调了对强大防御的需求。
• 我们在GitHub仓库1上分享了我们所有的演示，并在本文的附录中提供了所有开发的攻击提示，以促进未来研究，并为构建LLM集成应用的安全评估的开放框架做出贡献。