Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study

目录

概要

背景

1.提示数据收集过程

2.用于越狱提示分类的模型

3.禁止场景生成方法

4.实验设置

一、越狱LLM的提示符有几种类型?

1.假装

2. 注意力转移

 3.特权升级

二、越狱提示绕过llm限制的能力如何?

1.对于不同禁止场景的分析

2.对于不同越狱提示符类型的分析

3.鲁棒性

4.提示进化

 三、CHATGPT对这些越狱提示的抵抗能力如何?

 1.模型版本

2.非越狱提示的效果


概要

本文的研究主要调查了三个问题:

  • (1)越狱LLM的提示符有几种类型?
  • (2)越狱提示绕过llm限制的能力如何?
  • (3)CHATGPT对这些越狱提示的抵抗能力如何?

首先,作者开发了一个分类模型分析现有提示符分布,确定了十种不同的模式和三类越狱提示符。随后,评估了CHATGPT 3.5和4.0版本提示符的越狱能力,利用了8个禁止场景中的3,120个越狱问题的数据集。最后,评估了CHATGPT对越狱提示的抵抗力,发现提示可以在40个用例场景中一致地逃避限制。

背景

提示工程是研究人员破解CHATGPT的重要手段,它包括选择和微调提示,来引导LLM绕过限制。例如,通过提示破解CHATGPT的一种常用方法是指示它模拟“Do Anything Now”(DAN)行为,这种方法允许CHATGPT产生以前无法实现的结果。

越狱是软件系统中的一个传统概念,黑客对系统进行逆向工程并利用漏洞进行特权升级。在大模型的上下文中,越狱是指绕过模型受限行为的过程。它通常被开发人员和研究人员用来探索llm的全部潜力,并推动其能力的边界。

越狱提示示例

 禁止场景是在真实世界的会话上下文中,CHATGPT被禁止提供有意义的输出。OpenAI在官方使用策略中列出了所有禁止使用的场景。在每个被禁止的场景中,CHATGPT都会警告用户,当前对话可能会违反OpenAI政策。

禁止场景示例

1.提示数据收集过程

作者建立了首个研究CHATGPT越狱的数据集:提取越狱聊天网站https://www.jailbreakchat.com/ 从2023年2月11日到论文撰写日期的越狱提示。然后,手动检查并选择专门设计用于绕过CHATGPT安全机制的提示。最后将所有符合条件的提示选择到数据集中,以保证提示性质的多样性。

2.用于越狱提示分类的模型

本文提出了一个由10种不同越狱模式组成的稳定而全面的分类法。值得注意的是,一个越狱提示可能包含多个模式。此外,根据提示背后的意图,作者将这10种模式分为三种一般类型,即假装、注意力转移和特权升级

越狱提示的分类

假装:这类提示试图改变对话背景,同时保持相同意图。例如,假装提示在角色扮演游戏中使用CHATGPT,从而将对话上下文从直接的问答场景转换为游戏环境。然而,提示的目的仍然是一样的,那就是获得一个禁止场景的答案。在整个对话过程中,模型认为自己在游戏环境中回答问题。

注意力转移&#

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值