论文:Defending Large Language Models Against Attacks With Residual Stream Activation Analysis
作者:Amelia Kawasaki 、Andrew Davis 、 Houssam Abbas
发表:
摘要
以 OpenAI 的 ChatGPT 为代表的大型语言模型 (LLM) 的广泛采用,使防御这些模型上的对抗性威胁的必要性凸显出来。这些攻击通过引入恶意输入来操纵法学硕士的输出,破坏模型的完整性和用户对其输出的信任。为了应对这一挑战,我们的论文提出了一种创新的防御策略,允许白盒访问法学硕士,利用LLM的Transformer层之间的剩余激活分析。我们应用一种新颖的方法来分析残留流中的独特激活模式,以进行攻击提示分类。我们整理了多个数据集来演示这种分类方法如何在多种类型的攻击场景(包括我们新创建的攻击数据集)中具有高精度。此外,我们通过集成法学硕士的安全微调技术来增强模型的弹性,以衡量其对我们检测攻击能力的影响。结果强调了我们的方法在增强对抗性输入的检测和缓解、推进法学硕士运作的安全框架方面的有效性。
方法
贡献:
1、用模型的残差数据集训练一个LigtGBM分类器,对输入prompt进行识别(两类Attack、Benign)
2、使用防御分类检测输入提示词