目录
概要
本文的研究主要调查了三个问题:
- (1)越狱LLM的提示符有几种类型?
- (2)越狱提示绕过llm限制的能力如何?
- (3)CHATGPT对这些越狱提示的抵抗能力如何?
首先,作者开发了一个分类模型分析现有提示符分布,确定了十种不同的模式和三类越狱提示符。随后,评估了CHATGPT 3.5和4.0版本提示符的越狱能力,利用了8个禁止场景中的3,120个越狱问题的数据集。最后,评估了CHATGPT对越狱提示的抵抗力,发现提示可以在40个用例场景中一致地逃避限制。
背景
提示工程是研究人员破解CHATGPT的重要手段,它包括选择和微调提示,来引导LLM绕过限制。例如,通过提示破解CHATGPT的一种常用方法是指示它模拟“Do Anything Now”(DAN)行为,这种方法允许CHATGPT产生以前无法实现的结果。
越狱是软件系统中的一个传统概念,黑客对系统进行逆向工程并利用漏洞进行特权升级。在大模型的上下文中,越狱是指绕过模型受限行为的过程。它通常被开发人员和研究人员用来探索llm的全部潜力,并推动其能力的边界。

禁止场景是在真实世界的会话上下文中,CHATGPT被禁止提供有意义的输出。OpenAI在官方使用策略中列出了所有禁止使用的场景。在每个被禁止的场景中,CHATGPT都会警告用户,当前对话可能会违反OpenAI政策。

1.提示数据收集过程
作者建立了首个研究CHATGPT越狱的数据集:提取越狱聊天网站https://www.jailbreakchat.com/ 从2023年2月11日到论文撰写日期的越狱提示。然后,手动检查并选择专门设计用于绕过CHATGPT安全机制的提示。最后将所有符合条件的提示选择到数据集中,以保证提示性质的多样性。
2.用于越狱提示分类的模型
本文提出了一个由10种不同越狱模式组成的稳定而全面的分类法。值得注意的是,一个越狱提示可能包含多个模式。此外,根据提示背后的意图,作者将这10种模式分为三种一般类型,即假装、注意力转移和特权升级。

假装:这类提示试图改变对话背景,同时保持相同意图。例如,假装提示在角色扮演游戏中使用CHATGPT,从而将对话上下文从直接的问答场景转换为游戏环境。然而,提示的目的仍然是一样的,那就是获得一个禁止场景的答案。在整个对话过程中,模型认为自己在游戏环境中回答问题。
注意力转移&#