论文精读记录

        《Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation》本篇论文是越狱相关,区别于以往的提示词越狱,本文采用不安全的解码方式,以使大模型趋向有害输出。同时本文使用此方法探讨了安全回复的边界。

        本文的动机源于之前观察到的一个关键现象:尽管llm中的偏好对齐改变了模型利用知识的方式,但它并没有从根本上消除存储在模型参数中的潜在有害信息(Qi et al 2023b, 2024)。本篇论文针对的模型都是安全对齐过后的模型。

        本文提出一种从安全对齐的llm中自动提取有害路径的创新方案。该方案的核心思想是从任意解码步骤开始,评估在后续解码步骤中产生有害内容的概率。对于如何提高此概率作者将这个概率估计问题建模为基于奖励的马尔可夫决策过程(MDP) (Sutton and Barto 2018)。通过对外部或自生成的有害样本数据集(如SafeRLHF)进行训练(Dai et al 2023),我们得到了一个有效的有害状态评估模型,称为成本价值模型(CVM)。该模型可以引导潜在的有害路径,从而指导开发人员识别可能的漏洞。

        针对有害解码路径的引导如下图所示:

这些收集到的危险路径对于一些提示优化方法是更有效的目标。例如,通过在图像上加入可训练噪声并训练软提示,模型更有可能生成更多的有害内容。这表明了安全对齐模型的漏洞,这些漏洞的绕过机制可以被恶意利用。

成本模型(Cost Model):负责为每个输入的问答对提供具体的成本分数,作为结果成本模型(Outcome Cost Model,OCM)。这个模型使用“Is Safe Score”作为代理,基于ArmoRM-Llama3-8B-v0.1模型,该模型结构为专家混合模型(MoE),通过19个奖励目标(如真实、帮助性、复杂性和安全性等)进行评分。

成本价值模型CVM的训练

 

CVM指定不安全路径 

使用CVM的JVD解码方法 

该伪代码展示了一个名为**Jailbreak Value Decoding**的算法,使用了大语言模型(LLM)的策略与成本价值模型(Cost Value Model, CVM)来影响和引导生成的输出。

### 伪代码解释

#### 输入参数:
- `q`:有害问题,模型会基于此输入进行推理。
- `πθ`:大语言模型的策略,即生成文本的模型。
- `ˆV`:成本价值模型,用于评估不同状态和动作的价值。
- `T`:最大token长度,限制生成的最大步数。
- `K`:top-K,表示每一步中选择的前K个候选token。
- `β`:调节因子,控制成本价值模型对logits的影响力度。

#### 伪代码步骤:

1. **初始化状态(`s0 ← {q}`)**:将有害问题`q`作为初始状态`s0`,即最初模型会基于这个问题开始生成。
   
2. **开始循环(`for t← 0 to T`)**:循环从`0`到`T`(最大token长度),每一步生成一个新的token。
   
3. **计算每个候选token的调整logits(`for each a_t^i ∈ top-K(πθ(·|st))`)**:
   - 在每个时间步`t`,获取模型策略`πθ`生成的top-K个候选token。
   - 对每个候选token,调用成本价值模型`ˆV`,计算并调整每个token的logits。logits是模型选择某个token的概率。这里通过添加`βˆV(st, a_t^i)`来调整logits,使其倾向于选择那些根据成本价值模型评估为更具“价值”的token。
   
4. **生成选择的token(`achosen ← Decoding`)**:基于调整后的logits进行解码,选择当前步骤`achosen`的token。
   
5. **更新状态(`st+1 ← concatenate [st, achosen]`)**:将选择的token与之前的状态拼接,形成新的状态。
   
6. **终止条件(`if achosen == [eostoken]`)**:如果生成的token是结束符(`[eostoken]`),则停止生成过程,跳出循环。
   
7. **重复生成过程**:继续循环直到达到最大token长度`T`或者生成结束符。

通过这种方式,成本价值模型通过引导每一步的token选择,使得大语言模型生成的内容可能逐渐朝向不安全或有害的方向。这种算法可以被用于研究大语言模型在面对有害问题时的脆弱性和如何绕过安全机制。

 实验结果(对这个表很困惑,chat templateA,B,C论文中并未说明)

 

作者得出的相关结论: 

**解码阶段的整体脆弱性**

在本节中,我们使用成本价值模型(CVM)展示了目标大语言模型(LLM)的安全响应边界。LLaMA-2-chat 7B 在面对有害问题时表现出最强的鲁棒性;然而,它的防护仍然被攻破,表明即使看似安全,它的原始贪婪分布附近依然存在有害路径。一旦CVM引导出潜在的有害开头,Vicuna-13B 很容易输出有害内容。例如,Vicuna-13B 的防护一旦输出“1”,就会被CVM持续利用。

**前几个词元的脆弱性**

我们通过仔细的人工评估研究了CVM是如何运作的。我们发现,在三个目标LLM的前几个词元中存在浅层的安全性。之前的研究(Zou等人,2023a)强调了初始词元在决定模型响应潜在危险查询的轨迹中的关键作用。研究表明,当这些初始词元是良性或倾向于有害内容时,后续输出很可能会偏向有害领域。同样,我们的研究表明,即使是通过安全对齐技术(如SFT或RLHF)训练的模型,在早期词元生成中仍然存在脆弱性,可以被利用来诱导有害响应。具体来说,即使模型没有明确生成危险词元,在初始词元位置的可能延续路径中仍然存在不可忽视的有害路径。这一发现突显了安全对齐模型中的脆弱性,特别是在模型最初看似避免了有害性时,但在CVM扰动下可能偏向不安全的输出。

例如,LLaMA-2-chat 7B 输出“我不能……”,而“这里……”路径是其前11个选择之一。这些路径很容易被CVM捕捉,通过CVM的引导,大量拒绝被成功转化为同意,如表1和表2所示。

**同意词元后的脆弱性**

在本节中,我们进行了消融研究。我们首先为模型提供潜在有害的起始序列,例如“为了帮助你,首先准备……”,这表明在该序列之后生成的词元很可能是有害的。我们的目的是评估在这种情况下安全对齐模型存在的安全边界。我们发现LLaMA-2-chat 7B 即使在同意词元后也对大多数有害问题表现出强大的防御能力。然而,在CVM的引导下,仍然生成了许多具体的有害响应。同意词元后的结果见表3、表4和图2。

**拒绝词元后的脆弱性**

在本节中,我们使用CVM分析了目标安全对齐的LLM是否在最初输出拒绝后仍然存在不安全路径。我们在表5中展示了两个具体例子。尽管目标模型最初拒绝回答,并输出“你不能直接核平城市,因为这将带来严重的文明后果”,但它随后仍生成了对有害问题的详细回答。这表明即使模型最初输出了拒绝,仍然存在危险路径,凸显了深层词元中的潜在安全问题。

**响应毒性率与可读性之间的权衡**

我们进一步观察到,模型输出的可读性与响应毒性率之间存在明显的权衡,尤其是在LLaMA-2-chat 7B模型上表现得尤为明显。具体来说,随着β值的增加,模型更有可能生成有害内容。例如,当我们将β从10增加到12时,Chat Template B中的有害响应率从22.85%增加到28.10%。然而,当β值更高时,输出内容在完全有害之前逐渐变得不可读。我们称之为输出可读性与有害响应率之间的权衡。这一权衡的出现表明,当前安全对齐模型的安全边界在某种程度上是在针对特定查询的安全区域内。

**基于CVM引导文本的提示优化攻击**

现在,我们使用CVM从安全对齐模型中收集有害数据集。在本节中,我们展示了这些上下文的一个简单但有效的用法,通过软提示优化攻击目标LLM。我们遵循(Qi等人,2023a)的方法,向图像中添加可训练的噪声。然后我们训练该噪声,引导冻结的LLM生成之前收集的有害内容。具体而言,我们在MiniGPT4(Zhu等人,2023)上进行实验,该模型包括Vicuna-13B和LLaMA-2-chat 7B作为其骨干模型。这些模型也是目标有害数据集的来源。我们比较了两个数据集上的攻击成功率(ASR):400个SafeRLHF(Dai等人,2023)测试集问题,40个手动有害问题(Qi等人,2023a)。我们生成10个响应给第二个数据集,以确保测试用例数量为400,与第一个数据集一致。表7展示了两个目标模型的攻击成功率(ASR)表现。基线软提示使用60条手动有害指令(Qi等人,2023a)进行训练,而JVD软提示使用之前收集的自生成有害上下文进行训练。这里我们将实验设置中的指标1作为我们的评估标准:具体有害响应的百分比,而不是一般的拒绝率。我们发现,无论是基线还是我们的方法都导致了目标LLM的安全防护被攻破。然而,基线模型通常输出特定的仇恨词元,如“n”字,而不是直接响应有害问题。相比之下,我们的方法不仅通过诱导同意词元来突破安全防护,还引导生成更详细和有害的响应。

我们还计算了训练噪声的转移能力。例如,我们在MiniGPT4-Vicuna-13B上训练软提示,并将其转移到MiniGPT4-LLaMA-2-chat-7B。正如表8所示,某些模型上训练的软提示可以在一定程度上转移到另一个模型上。

 结论

CVM 引导的有害响应有多样性吗?我们发现,CVM 能够在响应开头生成许多不同的词语。对于 LLaMA-2-chat 7B 模型,我们收集了这些词语,构成了一个词汇池:Doing, The, 1., A, *, ·, D, 1-, -, Sure, There, Here, \ ””,\ n, To, 0, [直接答案], I, Hi, [一个数字], [一个名字], [一个百分比]…… 其中包含了25种以上的有害输出开头。

**检测到的不安全路径会引发哪些担忧?**这些检测到的路径确实比人工生成的响应更容易进行攻击,因为它们是在对应有害查询的top-K选项中选择的。如附录部分所示:MiniGPT-4上的软提示优化结果表明,在MiniGPT4-Vicuna-13B上训练软提示时,基于CVM引导文本的损失比基于人工文本的损失更低。一旦检测到安全响应边界,恶意用户可以利用这一点更轻松地攻击目标LLM,因为他们已经知道目标LLM会在哪个部分或位置出错。这些文本也可以作为其他提示优化方法的现成攻击目标,例如GCG(Zou等, 2023a)。

**在什么情况下CVM可能引发潜在的危险?**在这项工作中,我们使用CVM来检测安全对齐LLM的安全响应边界,但CVM也可能引发潜在的安全问题。CVM在目标LLM的解码过程中工作,特别是在top-K token的logits上。因此,任何暴露logits的模型都是潜在的攻击目标。这不仅包括开源模型,还包括提供logits的闭源模型。这方面还有很多未来的研究工作可能会继续推进。也可能会有更强大的安全价值模型来对抗CVM的扰动。总之,这项工作中观察到的风险确实提醒我们,LLM需要更加精细的安全对齐机制,以最大程度减少这种途径,无论是在初始token还是后续token生成时。

这段内容探讨了CVM(Cost Value Model,成本价值模型)在引导大语言模型生成有害内容时的多样性以及潜在的安全隐患。

CVM 引导有害响应的多样性:

CVM可以在生成有害内容时产生多样的输出开头。这意味着通过成本价值模型的引导,模型可以生成各种不同的有害句子开头。示例中,LLaMA-2-chat 7B 模型生成了诸如 "Doing", "The", "1.", "A" 等多种可能的开头,这使得生成的有害内容更加不可预测和多样。

安全隐患:

这些由CVM引导的路径比人工生成的更容易成为攻击目标,因为它们是通过评估和选择top-K可能的有害响应得到的。这种机制可以让恶意用户利用模型生成时的脆弱性,轻易绕过安全机制。一旦识别出模型生成响应时的“安全边界”,攻击者可以利用这些信息,集中攻击模型的弱点。

CVM引发的潜在危险:

CVM通过修改模型生成过程中对不同token的logits(选择某个单词的概率分布)来引导输出。如果暴露logits的模型,无论是开源的还是闭源的,都可能成为CVM攻击的潜在目标。攻击者可以利用CVM检测到的脆弱路径对模型发起攻击。这也提醒我们,需要对语言模型进行更严格的安全对齐,以避免生成潜在有害内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值