本文是LLM系列文章,针对《Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes》的翻译。
摘要
大型语言模型(LLM)正在成为一种突出的生成人工智能工具,用户可以在其中输入查询,LLM生成答案。为了减少伤害和滥用,已经努力使用先进的训练技术,如从人类反馈中强化学习(RLHF),使这些LLM与人类价值观相一致。然而,最近的研究强调了LLM容易受到旨在破坏嵌入式安全护栏的对抗性越狱企图的影响。为了应对这一挑战,本文定义并研究了LLM的拒绝损失,然后提出了一种称为梯度Cuff的方法来检测越狱企图。梯度Cuff利用在拒绝损失景观中观察到的独特特性,包括函数值及其平滑度,设计了一种有效的两步检测策略。在两种对齐的LLM(LLaMA-2-7B-Chat和Vicuna-7B-V1.5)和六种类型的越狱攻击(GCG、AutoDAN、PAIR、TAP、Base64和LRL)上的实验结果表明,梯度Cuff可以显著提高LLM对恶意越狱查询的拒绝能力,同时通过调整检测阈值来保持模型对良性用户查询的性能。
1 引言
2 相关工作
3 方法和算法
4 实验
5 结论
在本文中,我们定义并研究了LLM的拒绝损失函数,以利用其判别函数性质来设计一种有效的越狱检测方法,称为梯度Cuff。梯度Cuff采用两步越狱检测程序&#x