【论文精读】EEG-Defender: Defending against Jailbreak through Early Exit Generation of Large Language Mode

Devil Like

已于 2024-09-11 10:45:17 修改

阅读量504

点赞数 5

分类专栏：笔记文章标签：深度学习人工智能

于 2024-09-09 23:54:28 首次发布

本文链接：https://blog.csdn.net/Devilike/article/details/142057105

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

论文：EEG-Defender: Defending against Jailbreak through Early Exit Generation of Large Language Models

作者：Chongwen Zhao, Zhihao Dou, Kaizhu Huang

发表：arxiv

摘要

大型语言模型（LLM）在各种应用中越来越受到关注。尽管如此，随着一些用户试图利用这些模型进行恶意目的，包括合成受控物质和传播虚假信息，人们越来越担心。为了减轻此类风险，开发了“对齐”技术的概念。然而，最近的研究表明，这种对齐方式可能会被复杂的提示工程或对抗性后缀所破坏，这种技术被称为“越狱”。我们的研究借鉴了法学硕士的类人生成过程。我们发现，虽然越狱提示可能会产生与良性提示类似的输出逻辑，但它们在模型潜在空间中的初始嵌入往往更类似于恶意提示。利用这一发现，我们建议利用 LLM 的早期变压器输出作为检测恶意输入并立即终止生成的手段。基于这个想法，我们为法学硕士引入了一种简单但重要的防御方法，称为 EEG-Defender。我们对三种模型的十种越狱方法进行了全面的实验。我们的结果表明，EEG-Defender 能够大幅降低攻击成功率 (ASR)，与当前 SOTA 的 50% 相比，攻击成功率 (ASR) 降低约 85%，同时对 LLM 的实用性和有效性影响最小。

假设是什么？受到人类语言产生过程的启发

Given that language only affects how we deliver, but not the semantics of expression

作者假设大语言模型在识别初始层中的函数和访问中间层中存储的知识时类似地处理越狱和有害提示。

方法

该实验的动机是由于模型输出的文本中，第一个token起到较大的作用，如果是正常提问，模型会以同意式的token作为开头，而如果是有害提示，模型会拒绝回答，并且这个回答较为模版化，基本意“sorry”等类似的拒绝token开头，但是越狱提示本身和有害提示有接近的语义相似性，但是输出结果上看，越狱提示确和正常提示类似，会引导模型输出同意式的恢复，所以作者猜测随着层数的加深，越狱嵌入逐渐从有害转变为良性。

作者选取正常提示/有害提示/越狱提示各60条，基座模型选择Llama2-7b，对嵌入向量做PCA主成分分析，即降纬处理，得到上图的结果。作者发现，在早期层时的越狱提示的嵌入向量和有害提示的嵌入向量接近，而在中间层开始，越狱提示的向量开始向良性提示靠拢，在后期层，越狱提示基本和良性提示一致。最终，越狱嵌入要么分布在整个空间，要么分布在决策边界上，这使得识别越狱状态的模型变得复杂。

作者使用对话数据集（共5082条，其中302条是有害的），对这一数据集在选择的模型（llama2，vicuna）上进行重新评估，选择那些正常提示词以及被拒绝的有害提示词作为输入数据，并以这些提示词作为输入生成模型的嵌入向量作为训练数据训练MLP分类器。以llama2为例，它有32层，则作者用各层的嵌入向量作为训练数据，训练MLP分类器，共有32个分类器，上图是分类器的准确率，可以看到用早期层和中间层作为训练数据的分类器有较高的准确率。

EEG框架可分为三部分：

STEP1 构建提示词库

对提示词进行标注，正常提示词标记为0，有害提示词标记为1，对有害提示词进行测试，将那些成功被拒绝的提示词和正常提示词合并为同意提示词库中

STEP2 训练分类器

作者引用了原型分类器作为分类器模型，一些经典的原型分类器，如：KNN，K-mean等

Prototype-based learning（原型学习）是一种机器学习方法，它的核心思想是通过存储一组代表性的样本（原型），然后使用这些原型来进行分类、回归或聚类等任务。这种方法模拟了人类学习的方式，人们往往通过记住一些典型的例子来理解和泛化到新的情况。原型学习的主要优势在于它能够有效地处理复杂的数据分布，特别是当数据类别之间存在重叠或不均衡时。在原型学习中，原型通常是从训练数据中选择的一组代表性样本，每个原型代表一个类别或簇。原型可以是数据点的中心（如均值向量）或者是具有代表性的样本点。

STEP3 安全生成

使用第二步中训练的分类器对提示进行分类。根据作者的观察，早期层的分类器在检测越狱提示方面表现出更高的准确性。因此，EEG框架维护一个累积的积极计数器，称为有害分数，它跟踪分类器的积极分类（即识别为有害的提示）的总发生次数。两个超参数α和t分别控制浅层使用率和危害性评分阈值。如果超过阈值则拒绝回答，否则正常回答。α定义了要计算分数的层数，t定义了决策的阈值。

实验

Devil Like

关注

5
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
【论文精读】EEG-Defender: Defending against Jailbreak through Early Exit Generation of Large Language Mode

大型语言模型（LLM）在各种应用中越来越受到关注。尽管如此，随着一些用户试图利用这些模型进行恶意目的，包括合成受控物质和传播虚假信息，人们越来越担心。为了减轻此类风险，开发了“对齐”技术的概念。然而，最近的研究表明，这种对齐方式可能会被复杂的提示工程或对抗性后缀所破坏，这种技术被称为“越狱”。我们的研究借鉴了法学硕士的类人生成过程。我们发现，虽然越狱提示可能会产生与良性提示类似的输出逻辑，但它们在模型潜在空间中的初始嵌入往往更类似于恶意提示。
复制链接

扫一扫

专栏目录