【论文阅读】Defending Large Language Models Against Attacks With Residual Stream Activation Analysis

论文:Defending Large Language Models Against Attacks With Residual Stream Activation Analysis

作者:Amelia Kawasaki 、Andrew Davis 、 Houssam Abbas 

发表:

摘要

以 OpenAI 的 ChatGPT 为代表的大型语言模型 (LLM) 的广泛采用,使防御这些模型上的对抗性威胁的必要性凸显出来。这些攻击通过引入恶意输入来操纵法学硕士的输出,破坏模型的完整性和用户对其输出的信任。为了应对这一挑战,我们的论文提出了一种创新的防御策略,允许白盒访问法学硕士,利用LLM的Transformer层之间的剩余激活分析。我们应用一种新颖的方法来分析残留流中的独特激活模式,以进行攻击提示分类。我们整理了多个数据集来演示这种分类方法如何在多种类型的攻击场景(包括我们新创建的攻击数据集)中具有高精度。此外,我们通过集成法学硕士的安全微调技术来增强模型的弹性,以衡量其对我们检测攻击能力的影响。结果强调了我们的方法在增强对抗性输入的检测和缓解、推进法学硕士运作的安全框架方面的有效性。

方法

贡献:

1、用模型的残差数据集训练一个LigtGBM分类器,对输入prompt进行识别(两类Attack、Benign)

2、使用防御分类检测输入提示词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值