提示注入攻击-1

提示注入攻击

一、定义

提示注入(Prompt Injection)攻击是一种利用恶意指令作为输入提示的一部分来操纵语言模型输出的技术。和其他注入攻击类似,当指令和主要内容连接时,可能会发生提示注入,从而使大语言模型很难区分它们。这种攻击技术近期对AI和机器学习模型产生了较大影响,特别是对那些采用提示学习方法的模型而言。攻击者通过注入恶意指令,可以操纵模型的正常输出过程以导致模型产生不适当、有偏见或有害的输出。

提示注入攻击有多种形式,例如直接提示注入和间接提示注入。直接提示注入是指用户直接向模型输入恶意指令,试图引发意外或有害的行为。间接提示注入是指攻击者将恶意指令注入到可能被模型检索或摄入的文档中,从而间接地控制或引导模型。

二、分类

1、直接提示注入

直接提示注入攻击是通过直接在用户输入中添加恶意指令来操纵模型的输出。根据攻击的目的,可以将直接提示注入攻击大致划分为三种类型:目标劫持、提示泄露和越狱攻击

目标劫持旨在改变原始任务设置,以破坏模型的完整性。攻击者通过在用户输入中注入恶意指令,试图使模型在处理任务时出现错误的结果或行为。这种攻击可能导致模型误导用户、传递错误信息或执行不当操作,破坏系统的可靠性和安全性。

提示泄露攻击试图从原始提示中获取敏感或机密信息。攻击者通过恶意指令注入,在模型输出中引导模型泄露私人数据、敏感信息或其他机密内容。这种攻击对于保护用户隐私和数据安全构成严重威胁,可能导致个人隐私泄露、信息泄露或其他不良后果。

越狱攻击通过设计提示词,试图绕过模型限制,并执行任意任务或输出违规内容。攻击者通过精心构造的提示词,使模型在生成文本时超越预期的任务限制,执行未经授权的操作或产生违反规定的内容。这种攻击可能导致模型输出违法、违规或不道德的内容,损害社会公共利益和道德底线。

1.1目标劫持

目标劫持是一种通过将恶意指令添加到用户输入中以劫持语言模型输出的过程。该攻击通常是在提示词中添加一些恶意指令让模型忘记原始任务并执行目标任务,它将导致允许攻击者执行任意操作的安全风险。依据劫持后模型所执行的目标任务的类型可以将目标劫持分成同类型目标劫持跨类型目标劫持

1.1.1 同类型目标劫持

同类型目标劫持是指攻击者劫持模型并要求其执行的目标任务与原始任务类型相同。例如,对于一个英语到法语的翻译模型,攻击者要求该模型将另一个英语到法语的句子进行翻译。由于新旧任务类型相同,攻击者可以通过注入恶意指令来操纵模型输出,实现该类目标劫持攻击相对容易,但危害仍不可忽视。 

图片

1.1.2 跨类型目标劫持

跨类型目标劫持是指攻击者劫持模型并要求其执行的目标任务与原始任务类型完全不同。举例来说,对于一个英语到法语的翻译模型,攻击者要求该模型写一首诗。这种类型的攻击要求模型在不同领域或任务之间进行切换,可能涉及任意恶意任务,因此安全风险极高,但实现难度也较高。 

图片

1.2 提示泄露

提示泄露是指试图操纵模型输出以泄露部分或全部原始提示的行为。在大型语言模型中,攻击者通常通过在用户输入中注入恶意指令来实现提示泄露,从而窃取模型的原始提示。这可能导致敏感信息的曝光和未经授权的滥用。

对于模型的原始提示,包括开发人员设置的系统提示、AI产品供应商设置的专有提示前缀以及用户的对话记录等。因此,根据攻击者试图窃取的原始提示来源,可以将提示泄露分为系统提示泄露和用户提示泄露两种情况。系统提示泄露是指攻击者试图获取由开发人员或AI产品供应商设定的系统提示,而用户提示泄露则是指攻击者试图获取模型通过用户对话记录中获得的个性化提示。

无论是系统提示泄露还是用户提示泄露,都对用户隐私和数据安全构成了潜在威胁。这些攻击可能导致个人隐私信息的泄露,使得敏感数据可能被滥用。

1.2.1 系统提示泄露

系统提示是由开发人员为AI对话设置的边界和初始指令集,用于规定AI应该遵守的规则、需要避免的话题以及如何格式化响应等。这些指令通常会插入到用户对话之前的消息中,作为与AI进行对话的起点。如果攻击者获取到这些系统提示,就有可能分析出AI的行为模式或审查制度,并在未经授权的情况下操纵AI。

图片

图3-1展示了系统提示泄露的一个著名案例。当New Bing聊天搜索引擎刚推出时,斯坦福学生Kevin Liu成功进行了提示注入攻击。他发现了聊天机器人的内部代号为"Sydney",并成功泄露了微软为Sydney设定的一系列行为规则。 

没有任何系统提示是绝对安全的,安全研究人员已经找到了多种方法来使大型语言模型泄露其系统提示。除了微软已经确认的Bing Chat的泄露情况外,在Reddit、Twitter等社交媒体上也相继出现了Snap和GitHub Copilot Chat等大型语言模型系统提示泄露的信息。因此,在保护系统提示方面需要非常谨慎。开发人员和AI供应商应采取必要的安全措施,确保系统提示不被泄露,并加强对这些系统提示的保护和审查,以防止未经授权的操纵和滥用。 

1.2.2用户提示泄露

提示泄露攻击不仅可能获取到模型的系统提示,还可能导致用户提示中隐私信息的泄露。这包括下游开发人员或厂商在构建基于大型语言模型的AI产品时设置的专有提示前缀(例如特殊的生成格式)以及用户对话记录中的一些隐私信息(例如电子邮件地址、信用卡信息等)。这些用户提示的泄露可能被攻击者利用于恶意目的,例如窃取专有信息或制作更有效的钓鱼电子邮件等。同时,这些厂商或开发人员精心构造的提示作为产品的核心,可能包含重要的知识产权,因此需要采取适当的措施,以防止核心能力和数据的泄漏。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能教学实践

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值