[论文阅读]How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States-CSDN博客

本文链接：https://blog.csdn.net/m0_52911108/article/details/143580907

How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States

作者在知乎的介绍：Open the BlackBox - 通过hidden states解释LLM Safety - 知乎

先说结论：在前向传递的早期阶段，LLMs 根据预训练中学到的道德概念，为恶意和正常输入分配不同的中间隐藏状态。然后，在中间层，对齐调整允许将早期隐藏状态与代表积极或消极情绪的浅层猜测标记相关联，这些标记最终被提炼成相应的肯定或拒绝初始响应标记。目前，涉及额外输入处理的越狱通常无法欺骗模型的道德信念，而是扰乱了早期和中间层之间的关联。我们的工作解释了语言模型中的安全措施如何通过中间隐藏状态发挥作用。

使用弱分类器通过中间隐藏状态来解释LLM的安全性

深入研究了大语言模型（LLM）的对齐（alignment）和越狱（jailbreak）机制，探讨了这些机制如何在模型的隐层状态中体现。通过分析中间隐藏状态，作者旨在揭示LLM的安全性以及可能的脆弱点。

图 1：语言模型确定输入在早期层中是否合乎道德。在中间层，对齐允许语言模型对符合道德标准的输入进行初步的正猜测，对不符合道德的输入进行消极猜测。最后，在后面的层中，来自中间层的猜测被提炼成响应或拒绝的初始标记。

先前的研究发现，logits 在对齐模型和基本模型之间略有变化，主要是风格标记，例如免责声明和过渡标记。然而，这种微小的偏移可能会使模型无害，这可能会令人困惑。

图 2：对齐的 LLMs 通常会为不同的恶意输入返回一致的样式输出。各种模型系列通常以固定的拒绝输出开始，然后重复恶意意图，有些模型甚至解释了原因。我们以粗体突出显示固定的拒绝输出，重复的恶意目标以斜体标记。

LLM在预训练期间学习道德概念而不是对齐

首先基于这样的假设：如果模型对输入进行判断，判断结果表明用户输入是不安全的，则触发安全机制。那么这种分类判断，就会让人想到SVM

引入了从弱到强的解释 Weak-to-Strong Explanation（WSE）。具体来说，WSE 使用弱分类器对来自不同目标的模型的中间隐藏状态进行分类。如果弱分类器可以成功区分中间状态，则表明 LLMs 已经将输入隐式转换为不同的表示形式。

弱分类器的选择使用了SVM和100个神经元的单层MLP。选用SVM的原因在上上段已经说过，选用MLP是进一步辅助证明，如果连一个简易的MLP都可以很好地区分中间状态，那么更加证明了LLM已经把输入隐式转化为了不同的表示形式。

大型语言模型在前向传递的早期确定输入是安全的还是合乎道德的。隐藏状态在早期层具有显著差异，允许弱分类器以接近 100% 的准确率进行分类。令人惊讶的是，未对齐的语言模型也可以将不同的特征归因于不同的输入，弱分类器的性能与对齐模型的性能大致相同。我们认为，强大的 LLMs 已经学会了判断和适应训练前数据中的道德概念，并且可以区分不道德或有害的输入。

也就是说，无论隐藏状态是来自对齐模型还是基础模型，弱分类器都能区分恶意输入和正常输入的中间隐藏状态，准确率超过 95%。这表明该模型可以根据预训练期间学到的道德概念，将特征归因于它们是否安全和道德。

安全对齐：把道德与积极回复，不道德与消极回复进行捆绑

表1结果表明了模型对恶意目标的响应程度。得出的结论是，安全性差的模型很少将早期特征与情感标记联系起来，并且在中间层的一致性较差。我们还计算了这些层的平均 Top-5 中间一致性与恶意和越狱输入的攻击成功率（ASR）之间的相关系数，分别为 -0.516 和 -0.810。这种负相关进一步支持了我们结论的有效性。