【AIGC调研系列】大模型的system prompt破解调研

大模型的system prompt破解方法实践主要涉及到prompt工程和提示注入等技术。首先,prompt工程是指通过精心设计prompt,以提高与大模型的交互效率和准确性。这包括了如何清晰地表达任务要求和期望结果[2],如何有效使用prompt[4],以及如何自动学习最优prompt[4]。例如,通过指令工程和隐藏指令等方法来优化prompt的使用[6],或者通过定义适用于目标任务的Prompt,将Prompt转换为机器可学习的形式,也就是Prompt Embedding[14]。

其次,提示注入(prompt injection)是一种用于破解LLM的prompt方法,它涉及将恶意或非预期内容注入到prompt中,以此来实现特定的目的或攻击目标[1]。这种方法可以系统性地自动执行提示级的破解操作[11]。

此外,还有一些高级的prompt构造技巧,如Tunning-Free Prompt、AutoPrompt等[9],这些技巧可以帮助用户更有效地与大模型交互,同时也可能被用于破解或防御。

大模型的system prompt破解实践涉及到对prompt工程的深入理解和应用,包括但不限于prompt的设计、微调、安全分析等方面。通过精心设计和调整prompt,可以有效提升与大模型的交互效果,而提示注入等方法则提供了一种绕过正常交互机制的手段,用于实现特定的破解目的。

如何设计和优化prompt以提高与大模型的交互效率和准确性?

  1. 一致性原则:Prompt设计应尽可能与大型语言模型的高质量训练数据分布保持一致。高质量训练数据的语言风格通常是正式、礼貌、严谨和精炼的,使用类似的语言风格撰写Prompt有助于生成更高准确率的答案[23]。
  2. 明确需求和意图:与大模型进行交互时,需要将自己的需求和意图准确地表达出来,以便模型能够理解并提供相应的响应[24]。这类似于人与人之间的交互,清晰的沟通是提高交互效率的关键。
  3. 撰写高质量的Prompt:有效的Prompt可以提升AI模型给出的答案的质量,缩短与AI模型的交互时间,减少误解,提高沟通的顺畅度[25]。高质量的Prompt应该简洁明了,直接表达用户的需求和意图。
  4. 多轮交互优化:通过初步生成Prompt和与模型的交互,然后通过多轮交互逐步改进生成结果,可以帮助我们更好地理解模型的输出,并进行优化[26]。这种方法有助于提高模型在特定领域内的准确性和相关性。
  5. 利用自动优化工具:使用如APE、OPRO、PE2、EVOPROMPT、PromptAgent、LongPrompts等自动优化Prompt的工具,可以帮助解决prompts不work的问题,即模型不听从指令的情况[27]。这些工具基于深度学习注意力机制,能够自动识别和调整Prompt的内容,以提高交互的效率和准确性。
  6. 引入多模态交互:随着大模型技术的发展,未来可能会引入多模态交互,这将大幅降低人与AI交互的门槛,同时提升输出的质量和稳定性[30]。多模态交互能够提供更丰富的信息源,从而提高交互的质量和效率。

设计和优化Prompt以提高与大模型的交互效率和准确性,需要综合考虑语言风格的一致性、明确的需求表达、高质量Prompt的撰写、多轮交互的优化,以及利用自动优化工具和技巧。同时,随着技术的进步,引入多模态交互也将成为提高效率和准确性的重要方向。

提示注入在破解LLM中的具体应用案例是什么?

  1. 命令注入:这是一种直接的提示注入攻击,攻击者通过指示LLM忽略应用程序创建者的系统提示,而是执行攻击者构造的攻击提示,如返回隐私信息、危险或不良内容[35]。
  2. 越狱提示攻击:这种攻击完全通过用户的创造力和使用各种技术(如描绘假设情况、探索特权升级等)来制作提示,从而欺骗LLM执行非预期的操作[38]。
  3. 提示泄露:提示注入的一种形式,将恶意或非预期内容添加到提示中,以劫持语言模型的输出[39]。
  4. 利用社交媒体推文进行提示注入:例如,remoteli.io 将用户的推文与自己的提示连接起来,形成他们传递到LLM的最终提示。这意味着Twitter用户注入到他们的推文中的任何文本都将传递到LLM中[40]。

这些案例展示了提示注入攻击在不同场景下的应用,从直接的攻击命令到利用社交媒体内容的策略,都体现了提示注入攻击的多样性和复杂性。

Prompt Embedding技术是如何工作的,以及它如何帮助提高与大模型的交互效果?

Prompt Embedding技术通过将文本或图像等数据的表示形式(如embedding)与特定的交互提示词相结合,来实现与大模型的有效交互。这种技术主要应用于自然语言处理(NLP)和计算机视觉领域,旨在提高模型对输入数据的理解和生成能力。

首先,Prompt Embedding的工作原理涉及到将高维离散向量(如文本、图像等)转换为低维连续向量(如图像embedding),这一过程称为嵌入(Embedding)[43][49]。在这个过程中,可以通过一个linear层将文本prompt的embedding映射到图像embedding维度,转换成图像prompt向量[43]。这样做的目的是为了让模型能够更好地理解和处理这些交互提示词,从而提升模型的处理效果。

其次,Prompt Embedding技术还包括了微调(Fine-tuning)的步骤,即通过调整模型的参数和结构来适应特定的应用场景或领域[42]。例如,通过添加连续的模板到Transformer的每一层的前缀部分,可以使模型在输入层对应的模板部分的Embedding和MLP参数成为可训练的对象[47]。这种学习方式使得模型更容易学习到如何根据特定的提示进行响应,从而提高了与大模型的交互效果。

此外,Prompt Embedding技术还强调了提示词工程(Prompt Engineering)的重要性,即通过不断的对话、引导和提示,帮助大模型逐渐提升处理效果,满足企业的场景化需求[45]。这种方法不仅限于文本生成任务,也适用于其他NLP任务,通过加入prefix prompt给模型额外的条件信息来指导模型生成后续的文本[50]。

Prompt Embedding技术通过将数据的表示形式与特定的交互提示词相结合,并结合微调等步骤,有效地提高了与大模型的交互效果。它通过将高维的数据表示转化为低维的连续向量,以及通过不断的提示和引导,使得模型能够更准确地理解和应用这些交互提示词,从而提升模型的性能和适应性。

Tunning-Free Prompt和AutoPrompt等高级prompt构造技巧有哪些,它们是如何被用于破解或防御的?

这些技巧通过自动发现最佳的prompt,而不需要进行微调,从而减少了模型训练的时间和成本[55]。例如,AutoPrompt通过设置特定的prompt和为每个类别设置对应的候选词来达成目标,这种方法利用了候选词的选择和[MASK]的位数相关性[54]。

在防御方面,尽管防止提示注入可能非常困难,目前几乎没有有效的防御方法[56][61]。尽管如此,一些常识性的解决方案仍然存在,例如避免输出自由形式的文本,以减少被恶意使用的风险[56][61]。此外,一种潜在的防御方法是在响应用户之前监测解码的内容,但这种防御策略效果不佳[58]。

总的来说,Tunning-Free Prompt和AutoPrompt通过简化prompt构造过程和优化模型性能,为破解和防御提供了新的思路和方法。然而,由于技术限制,这些方法在实际应用中可能面临挑战。

在进行system prompt破解时,有哪些有效的安全分析方法?

  1. 预防提示词泄露:由于目前还不能百分百预防其他人破解GPT提示词,因此需要通过官方的紧急修复来提高安全性[62]。这意味着在破解之前,首先要确保目标系统或应用程序的提示词没有被泄露给攻击者。
  2. 绕过安全审查:通过使用自定义Prompt绕过ChatGPT的安全审查,可以在使用过程中绕过一些安全限制[63]。这种方法依赖于对目标系统或应用程序的安全机制有深入了解,以及能够生成与之匹配的Prompt。
  3. Prompt逆向工程:对于大模型应用开发来说,了解Prompt攻击和防攻击的手段非常重要[64]。这包括学习如何逆向工程Prompt,以便更好地理解其工作原理和潜在的安全漏洞。
  4. 指令注入攻击(Jailbreak):例如,从奶奶漏洞到Prompt injection,这是一种广义上的“Prompt Injection”或“Jailbreak”攻击[65]。这种攻击方式涉及到将恶意指令注入到系统中,从而实现对系统的控制。
  5. 内容安全审核:通过在system prompt中明确指定角色,规避与业务角色不一致的情况,可以有效地进行内容安全审核[67]。这种方法要求对系统的角色和功能有清晰的定义,以确保所有操作都在安全可控的范围内。
  6. Prompt Engineering优化原则:在分析Webshell代码时,采用预处理代码的方法对输入进行预处理,可以提高分析效率[70]。这种方法同样适用于其他类型的Prompt分析,通过优化Prompt的结构和内容,可以更容易地识别出潜在的安全问题。

进行system prompt破解时,有效的安全分析方法包括预防提示词泄露、绕过安全审查、Prompt逆向工程、指令注入攻击、内容安全审核以及Prompt Engineering优化原则等。这些方法各有侧重,但共同目标是为了更安全地利用系统或应用程序,同时避免不必要的安全风险。

参考资料

[1]. 用于破解LLM的prompt方法(大语言模型的黑客技术与防御) 翻译

[2]. 基于大模型GPT,如何提炼出优质的Prompt - 知乎 - 知乎专栏

[3]. Prompt本质解密及Evaluation实战(一) 原创 - CSDN博客

[4]. 《大模型时代的科研》之2: Prompt Engineering (提示词工程) - 知乎

[5]. 保姆级指南:大模型prompt的最佳实践-虎嗅网

[6]. 保姆级指南:大模型prompt的最佳实践 - 虎嗅网

[7]. Prompt本质解密及Evaluation实战与源码解析(三) 原创 - CSDN博客

[8]. 详解AI大模型行业黑话,迅速搞懂提示工程(prompt)、向量工程(embedding)、微调工程(fine-tune) - 知乎

[9]. 解密Prompt系列1: Prompt构造技巧概览 - 百度开发者中心

[10]. 万字长文之提示学习和微调大模型(Prompt Learning & Prompt Tuning)

[11]. 大语言模型的“破解”研究:仅需二十次尝试[译] - 宝玉的分享

[12]. 预训练大模型时代必备技巧——提示工程指南(Prompt Engineering Guide) | 数据学习者官方网站(Datalearner)

[13]. 解密Prompt系列1. Tunning-Free Prompt:GPT2 & GPT3 & LAMA & AutoPrompt - 风雨中的 ...

[14]. Prompt Tuning:大模型微调的革新方法 - 稀土掘金

[15]. Prompt是什么_揭秘Prompt:大模型时代的关键技术与实践应用- 掘金

[16]. 人工智能 - 如何用大模型 Prompt 解决行业场景问题?大厂中文教程来了! - 百度飞桨 - SegmentFault 思否

[17]. 【AI大模型应用开发】1.0 Prompt Engineering(提示词工程)- 典型构成、原则与技巧,代码中加入Prompt

[18]. 纯干货!最全Prompt工程方法总结,与ChatGPT、GPT-4等LLMs的交互更高效!-腾讯云开发者社区-腾讯云

[19]. 高阶Prompt —— API 细节及重要技巧 - 知乎专栏

[20]. 大模型,向量数据库,prompt的关系是什么? - 知乎

[21]. AI 新时代,大模型该如何“绞尽脑汁”? - 腾讯云

[22]. prompt设计原则最佳实践,附案例 - 腾讯云

[23]. Effective Prompt: 编写高质量Prompt的14个有效方法 - 知乎

[24]. 聊一下Prompt 优化 - 知乎专栏

[25]. GPT Prompt编写的艺术:如何提高AI模型的表现力 - 稀土掘金

[26]. 基于大模型GPT,如何提炼出优质的Prompt - 51CTO博客

[27]. 2023年大模型优化方法-自动优化Prompt: APE,OPRO,PE2,EVOPROMPT,PromptAgent,LongPrompts ...

[28]. 大模型之Prompt研究和技巧 - 百度开发者中心

[29]. 优化GPT Prompt:增强模型回答的准确性与针对性 - 百度开发者中心

[30]. LangChain—Prompt Engineering:大模型炼金术

[31]. Prompt工程师指南从基础到进阶篇:用于开发和优化提示,以有效地使用语言模型(LMs)进行各种应用和研究主题

[32]. 加强LLM 应用安全性的最佳实践 - 稀土掘金

[33]. [PDF] 大语言模型提示注入攻击安全风险分析报告

[34]. Llm提示注入攻击介绍 - 知乎 - 知乎专栏

[35]. OWASP-Top-10-for-LLMs-2023 - 郑瀚Andrew - 博客园

[36]. 打工人转型之道(三):提示工程(Prompt Engineering)高阶篇 - 知乎

[37]. ChatGPT安全风险| 基于LLMs应用的Prompt注入攻击 - CTF导航

[38]. 对抗性攻击揭示的大语言模型脆弱性:综述 - 知乎

[39]. LLM 安全专题 - 前言· LLM 应用开发实践笔记

[40]. 提示注入 - Learn Prompting

[41]. “提示注入”与“破解”并不是一回事[译] - 宝玉的分享

[42]. 文本Embedding 基本概念和应用实现原理_技术分享 - InfoQ 写作社区

[43]. 一文了解prompt learning在计算机视觉领域进展 - 知乎

[44]. 从失望到精通:AI 大模型实践与实用技巧 - 36氪

[45]. 从头开始,八步实现大模型接入|如何用好大模型 - 知乎

[46]. NLP中embedding的再一点思考:世界上本没什么prompt - 智源社区

[47]. 五万字综述!Prompt-Tuning:深度解读一种新的微调范式 - 知乎

[48]. 如何优化大模型的In-Context Learning效果? - 知乎专栏

[49]. 理解神经网络中Embedding层的原理 - Erwin Feng Blog

[50]. NLP Prompt系列——Prompt Engineering方法详细梳理 - 知乎

[51]. 得物大模型平台,业务效果提升实践

[52]. 论文阅读:AutoPrompt - 知乎 - 知乎专栏

[53]. prompt-based models 原创 - CSDN博客

[54]. 论文笔记(四) AutoPrompt - 知乎 - 知乎专栏

[55]. 标题:解密Prompt系列1:构造Prompt新方法 - 百度开发者中心

[56]. 破解提示| Prompt 学习指南

[57]. 五万字综述!Prompt Tuning:深度解读一种新的微调范式 - 知乎专栏

[58]. 通过对抗性攻击揭示的大型语言模型的漏洞综述Part1 - 知乎专栏

[59]. Prompt Tuning:大模型微调的实战技巧 - 稀土掘金

[60]. Prompt Engineering & Prompt Tuning - 知乎 - 知乎专栏

[61]. 防御措施 - Prompt 学习指南

[62]. 几个步骤,就可以黑掉你的gpt - 知乎 - 知乎专栏

[63]. OpenAI 的 GPTs 提示词泄露攻击与防护实战 - 知乎

[64]. 【AI大模型应用开发】1.3 Prompt攻防(安全) 和Prompt逆向工程原创

[65]. 从奶奶漏洞到 Prompt injection:指令注入攻击 - 知乎

[66]. 安全分析:剖析木马加载方式以及破解方案 - DOIT

[67]. 如何用ChatGPT做内容安全审核? - 知乎专栏

[68]. 提示词破解:绕过ChatGPT 的安全审查 - 稀土掘金

[69]. 谷歌Bard「破防」,用自然语言破解,提示注入引起数据泄漏风险

[70]. Prompt Engineering优化原则- 以Webshell代码解释为例 - 博客园

  • 15
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

来自太平洋的暖湿气流

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值