本文是LLM系列文章,针对《Making Them Ask and Answer: Jailbreaking Large Language Models
in Few Queries via Disguise and Reconstruction》的翻译。
摘要
近年来,大型语言模型(LLM)在各种任务中都取得了显著的成功,但LLM的可信度仍然是一个悬而未决的问题。一个具体的威胁是可能产生有毒或有害的反应。攻击者可以制作对抗性提示,从而引起LLM的有害响应。在这项工作中,我们通过识别安全微调中的偏见漏洞,开创了LLM安全的理论基础,并设计了一种名为DRA(伪装和重建攻击)的黑匣子越狱方法,该方法通过伪装隐藏有害指令,并在完成时提示模型重建原始有害指令。我们评估了各种开源和开源模型的DRA,展示了最先进的越狱成功率和攻击效率。值得注意的是,DRA在LLM聊天机器人GPT-4上拥有90%的攻击成功率。