论文翻译:ACL-2024.Zeng Y.CCF-A How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to

How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs
https://arxiv.org/pdf/2401.06373

如何让约翰尼说服大型语言模型(LLM)越狱:重新思考通过人格化LLM挑战AI安全的说服策略**

摘要

大多数传统的AI安全研究将AI模型视为机器,并以安全专家开发的、以算法为中心的攻击为主。随着大型语言模型(LLM)变得越来越普遍和能干,非专家用户在日常互动中也可能带来风险。本文提出了一个新的视角,将LLM视为类人沟通者来越狱,以探索日常语言互动与AI安全之间被忽视的交叉点。具体来说,我们研究了如何说服LLM进行越狱。首先,我们提出了一个源自数十年社会科学研究的说服分类法。然后,我们将这个分类法应用于自动生成可解释的说服性对抗性提示(PAP)来越狱LLM。结果显示,说服显著提高了所有风险类别的越狱性能:PAP在Llama 2-7b Chat、GPT-3.5和GPT-4上在10次尝试中一致实现了超过92%的攻击成功率,超过了最近的以算法为中心的攻击。在防御方面&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值