【论文阅读】Protecting Your LLMs with Information Bottleneck

最新推荐文章于 2024-09-11 23:03:17 发布

Devil Like

最新推荐文章于 2024-09-11 23:03:17 发布

阅读量419

点赞数 3

文章标签：论文阅读

本文链接：https://blog.csdn.net/Devilike/article/details/141825677

版权

论文：Protecting Your LLMs with Information Bottleneck

作者：Zichuan Liu1,2∗, Zefan Wang3∗, Linjie Xu2,4, Jinyu Wang2, Lei Song2†, Tianchun Wang5, Chunlin Chen1, Wei Cheng6, Jiang Bian2

发表：arxiv

摘要

大型语言模型（LLM）的出现彻底改变了自然语言处理领域，但它们可能会受到攻击，产生有害内容。尽管努力使LLM在道德上保持一致，但这些LLM往往很脆弱，可以通过优化或手动对抗提示进行越狱攻击来规避。为了解决这个问题，我们引入了信息瓶颈保护器（IBProtector），这是一种基于信息瓶颈原理的防御机制，我们修改了目标以避免琐碎的解决方案。IBProtector在轻量级和可训练的提取器的帮助下，选择性地压缩和扰动提示，只保留目标LLM用预期答案做出响应的基本信息。此外，我们进一步考虑了梯度不可见的情况与任何LLM兼容。我们的实证评估表明，IBProtector在减轻越狱企图方面优于当前的防御方法，而不会过度影响响应质量或推理速度。它在各种攻击方法和目标LLM中的有效性和适应性突显了IBProtector作为一种新型、可转移的防御的潜力，它可以在不需要修改底层模型的情况下增强LLM的安全性

方法

什么是信息瓶颈原理？

在信息瓶颈理论中，主要目标是在信息的保真度（保持信息的有效性）和信息的简明性（减少冗余信息）之间找到一个最优的平衡点。具体来说，就是如何有效地从原始数据中提取出对某个特定任务最有用的信息，同时丢弃不相关的细节。这可以通过构建一个中间表示（或称“瓶颈”）来实现，这个中间表示既要能很好地预测任务目标，又要尽可能简单。

在形式上，信息瓶颈问题通常被表述为一个优化问题，其中需要最小化两个相互竞争的目标函数：一个是保留关于目标变量Y的信息（通常用互信息I(X;Y)度量），另一个是压缩输入变量X的信息（用互信息I(X;T)度量），T是所谓的瓶颈变量或者简化表示。这两个目标通常通过一个标量参数λ进行权衡，λ决定了压缩和保留信息的重要性比例。

上图解释了IBProtecter对输入提示词的处理结果，这是一种IB在大模型中的实现

作者是如何将信息瓶颈IB与大模型对齐融合在一起的？

$X_{sub}^{*}:=argmin\ \alpha I(X;X_{sub})-I(Y;X_{sub})$

给定输入提示，提取器可以提取信息最丰富的部分供预测器响应。

$I(X;X_{sub})\leq E_X[D_{KL}[\mathbb{P}_{\theta}(X_{sub}|X])||\mathbb{Q}(X_{sub})]]$

$L_{M}=\sum ^{T}_{t=1}[\pi_tlog(\frac{\pi_t}{r})+(1-\pi_t)log(\frac{1-\pi_t}{1-r})]$

$L_{con}=\frac{1}{T}\cdot \sum ^{T-1}_{t=1}\sqrt{(\pi_{t+1}-\pi_t)^2}$

$L_{info}=-\sum^{|Y|}_{t=1}log p(Y_t|\widetilde{X},Y_{<t}])+\sum^{|Y|}_{t=1}D_{KL}[f_{tar}(\widetilde{X},Y_{<t})||f_{tar}(X,Y_{<t})]$

$L=L_{info}+\alpha (L_M+\lambda L_{con})$

Devil Like

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Protecting Your LLMs with Information Bottleneck

大型语言模型（LLM）的出现彻底改变了自然语言处理领域，但它们可能会受到攻击，产生有害内容。尽管努力使LLM在道德上保持一致，但这些LLM往往很脆弱，可以通过优化或手动对抗提示进行越狱攻击来规避。为了解决这个问题，我们引入了信息瓶颈保护器（IBProtector），这是一种基于信息瓶颈原理的防御机制，我们修改了目标以避免琐碎的解决方案。IBProtector在轻量级和可训练的提取器的帮助下，选择性地压缩和扰动提示，只保留目标LLM用预期答案做出响应的基本信息。
复制链接

扫一扫