【论文阅读】Protecting Your LLMs with Information Bottleneck

论文:Protecting Your LLMs with Information Bottleneck

作者:Zichuan Liu1,2∗, Zefan Wang3∗, Linjie Xu2,4, Jinyu Wang2, Lei Song2†, Tianchun Wang5, Chunlin Chen1, Wei Cheng6, Jiang Bian2

发表:arxiv

摘要

大型语言模型(LLM)的出现彻底改变了自然语言处理领域,但它们可能会受到攻击,产生有害内容。尽管努力使LLM在道德上保持一致,但这些LLM往往很脆弱,可以通过优化或手动对抗提示进行越狱攻击来规避。为了解决这个问题,我们引入了信息瓶颈保护器(IBProtector),这是一种基于信息瓶颈原理的防御机制,我们修改了目标以避免琐碎的解决方案。IBProtector在轻量级和可训练的提取器的帮助下,选择性地压缩和扰动提示,只保留目标LLM用预期答案做出响应的基本信息。此外,我们进一步考虑了梯度不可见的情况与任何LLM兼容。我们的实证评估表明,IBProtector在减轻越狱企图方面优于当前的防御方法,而不会过度影响响应质量或推理速度。它在各种攻击方法和目标LLM中的有效性和适应性突显了IBProtector作为一种新型、可转移的防御的潜力,它可以在不需要修改底层模型的情况下增强LLM的安全性

方法

什么是信息瓶颈原理?

在信息瓶颈理论中,主要目标是在信息的保真度(保持信息的有效性)和信息的简明性(减少冗余信息)之间找到一个最优的平衡点。具体来说,就是如何有效地从原始数据中提取出对某个特定任务最有用的信息,同时丢弃不相关的细节。这可以通过构建一个中间表示(或称“瓶颈”)来实现,这个中间表示既要能很好地预测任务目标,又要尽可能简单。

在形式上,信息瓶颈问题通常被表述为一个优化问题,其中需要最小化两个相互竞争的目标函数:一个是保留关于目标变量Y的信息(通常用互信息I(X;Y)度量),另一个是压缩输入变量X的信息(用互信息I(X;T)度量),T是所谓的瓶颈变量或者简化表示。这两个目标通常通过一个标量参数λ进行权衡,λ决定了压缩和保留信息的重要性比例。

上图解释了IBProtecter对输入提示词的处理结果,这是一种IB在大模型中的实现

作者是如何将信息瓶颈IB与大模型对齐融合在一起的?

X_{sub}^{*}:=argmin\ \alpha I(X;X_{sub})-I(Y;X_{sub})

给定输入提示,提取器可以提取信息最丰富的部分供预测器响应。

I(X;X_{sub})\leq E_X[D_{KL}[\mathbb{P}_{\theta}(X_{sub}|X])||\mathbb{Q}(X_{sub})]]

L_{M}=\sum ^{T}_{t=1}[\pi_tlog(\frac{\pi_t}{r})+(1-\pi_t)log(\frac{1-\pi_t}{1-r})]

L_{con}=\frac{1}{T}\cdot \sum ^{T-1}_{t=1}\sqrt{(\pi_{t+1}-\pi_t)^2}

L_{info}=-\sum^{|Y|}_{t=1}log p(Y_t|\widetilde{X},Y_{<t}])+\sum^{|Y|}_{t=1}D_{KL}[f_{tar}(\widetilde{X},Y_{<t})||f_{tar}(X,Y_{<t})]

L=L_{info}+\alpha (L_M+\lambda L_{con})

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值