How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States
http://arxiv.org/abs/2406.05644
作者在知乎的介绍:Open the BlackBox - 通过hidden states解释LLM Safety - 知乎
先说结论:在前向传递的早期阶段,LLMs 根据预训练中学到的道德概念,为恶意和正常输入分配不同的中间隐藏状态。然后,在中间层,对齐调整允许将早期隐藏状态与代表积极或消极情绪的浅层猜测标记相关联,这些标记最终被提炼成相应的肯定或拒绝初始响应标记。目前,涉及额外输入处理的越狱通常无法欺骗模型的道德信念,而是扰乱了早期和中间层之间的关联。我们的工作解释了语言模型中的安全措施如何通过中间隐藏状态发挥作用。
使用弱分类器通过中间隐藏状态来解释LLM的安全性
深入研究了大语言模型(LLM)的对齐(alignment)和越狱(jailbreak)机制,探讨了这些机制如何在模型的隐层状态中体现。通过分析中间隐藏状态,作者旨在揭示LLM的安全性以及可能的脆弱点。

先前的研究发现,logits 在对齐模型和基本模型之间略有变化,主要是风格标记,例如免责声明和过渡标记。然而,这种微小的偏移可能会使模型无害,这可能会令人困惑。

LLM在预训练期间学习道德概念而不是对齐
首先基于这样的假设:如果模型对输入进行判断,判断结果表明用户输入是不安全的,则触发安全机制。那么这种分类判断,就会让人想到SVM
引入了从弱到强的解释 Weak-to-Strong Explanation(WSE)。具体来说,WSE 使用弱分类器对来自不同目标的模型的中间隐藏状态进行分类。如果弱分类器可以成功区分中间状态,则表明 LLMs 已经将输入隐式转换为不同的表示形式。
弱分类器的选择使用了SVM和100个神经元的单层MLP。选用SVM的原因在上上段已经说过,选用MLP是进一步辅助证明,如果连一个简易的MLP都可以很好地区分中间状态,那么更加证明了LLM已经把输入隐式转化为了不同的表示形式。
大型语言模型在前向传递的早期确定输入是安全的还是合乎道德的。隐藏状态在早期层具有显著差异,允许弱分类器以接近 100% 的准确率进行分类。令人惊讶的是,未对齐的语言模型也可以将不同的特征归因于不同的输入,弱分类器的性能与对齐模型的性能大致相同。我们认为,强大的 LLMs 已经学会了判断和适应训练前数据中的道德概念,并且可以区分不道德或有害的输入。
也就是说,无论隐藏状态是来自对齐模型还是基础模型,弱分类器都能区分恶意输入和正常输入的中间隐藏状态,准确率超过 95%。这表明该模型可以根据预训练期间学到的道德概念,将特征归因于它们是否安全和道德。
安全对齐:把道德与积极回复,不道德与消极回复 进行捆绑
表1结果表明了模型对恶意目标的响应程度。得出的结论是,安全性差的模型很少将早期特征与情感标记联系起来,并且在中间层的一致性较差。我们还计算了这些层的平均 Top-5 中间一致性与恶意和越狱输入的攻击成功率 (ASR) 之间的相关系数,分别为 -0.516 和 -0.810。这种负相关进一步支持了我们结论的有效性。
实验结果表明,在提取了早期层的信息后,对齐模型开始在中间层形成初步判断。这些判断归因于安全对齐。对齐充当概念桥梁,将不道德或不安全的输入与负面情绪联系起来,以确保无害的输出。
越狱如何导致安全保证失败呢?弱分类器的结果表明,在LLM的前几层就可以完成对输入文本是有害的还是无害的进行一个较高准确率的判断,也就是说越狱攻击并不会在前几层中干扰模型的判断,那么越狱攻击破坏的应该是早期道德观念和中间层情绪之间的一种联系。
文章提出了Logit Grafting来修改中间层的隐藏状态,来近似越狱造成的中间层终端。该方法将正常输入中的积极情绪嫁接到越狱输入的中间层状态,结果表明越狱攻击破坏了早期层和中间层之间的关联。