How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs
https://arxiv.org/pdf/2401.06373
如何让约翰尼说服大型语言模型(LLM)越狱:重新思考通过人格化LLM挑战AI安全的说服策略**
摘要
大多数传统的AI安全研究将AI模型视为机器,并以安全专家开发的、以算法为中心的攻击为主。随着大型语言模型(LLM)变得越来越普遍和能干,非专家用户在日常互动中也可能带来风险。本文提出了一个新的视角,将LLM视为类人沟通者来越狱,以探索日常语言互动与AI安全之间被忽视的交叉点。具体来说,我们研究了如何说服LLM进行越狱。首先,我们提出了一个源自数十年社会科学研究的说服分类法。然后,我们将这个分类法应用于自动生成可解释的说服性对抗性提示(PAP)来越狱LLM。结果显示,说服显著提高了所有风险类别的越狱性能:PAP在Llama 2-7b Chat、GPT-3.5和GPT-4上在10次尝试中一致实现了超过92%的攻击成功率,超过了最近的以算法为中心的攻击。在防御方面&#