Jailbreaking ChatGPT via Prompt Engineering: An Empirical Study

最新推荐文章于 2025-04-28 09:12:11 发布

Soungkayou

最新推荐文章于 2025-04-28 09:12:11 发布

阅读量1.4k

点赞数 13

分类专栏： LLM网络安全论文文章标签： chatgpt prompt

本文链接：https://blog.csdn.net/m0_64764193/article/details/143657808

版权

概要

本文的研究主要调查了三个问题：

(1)越狱LLM的提示符有几种类型？
(2)越狱提示绕过llm限制的能力如何？
(3)CHATGPT对这些越狱提示的抵抗能力如何？

首先，作者开发了一个分类模型分析现有提示符分布，确定了十种不同的模式和三类越狱提示符。随后，评估了CHATGPT 3.5和4.0版本提示符的越狱能力，利用了8个禁止场景中的3,120个越狱问题的数据集。最后，评估了CHATGPT对越狱提示的抵抗力，发现提示可以在40个用例场景中一致地逃避限制。

背景

提示工程是研究人员破解CHATGPT的重要手段，它包括选择和微调提示，来引导LLM绕过限制。例如，通过提示破解CHATGPT的一种常用方法是指示它模拟“Do Anything Now”（DAN）行为，这种方法允许CHATGPT产生以前无法实现的结果。

越狱是软件系统中的一个传统概念，黑客对系统进行逆向工程并利用漏洞进行特权升级。在大模型的上下文中，越狱是指绕过模型受限行为的过程。它通常被开发人员和研究人员用来探索llm的全部潜力，并推动其能力的边界。

禁止场景是在真实世界的会话上下文中，CHATGPT被禁止提供有意义的输出。OpenAI在官方使用策略中列出了所有禁止使用的场景。在每个被禁止的场景中，CHATGPT都会警告用户，当前对话可能会违反OpenAI政策。

1.提示数据收集过程

作者建立了首个研究CHATGPT越狱的数据集：提取越狱聊天网站https://www.jailbreakchat.com/ 从2023年2月11日到论文撰写日期的越狱提示。然后，手动检查并选择专门设计用于绕过CHATGPT安全机制的提示。最后将所有符合条件的提示选择到数据集中，以保证提示性质的多样性。