【论文阅读】Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing

最新推荐文章于 2024-09-11 23:03:17 发布

Devil Like

最新推荐文章于 2024-09-11 23:03:17 发布

阅读量826

点赞数 8

文章标签：论文阅读语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Devilike/article/details/141394761

版权

论文：Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing

作者：Wei Zhao, Zhe Li, Yige Li, Ye Zhang, Jun Sun

发表：arxiv

摘要

大型语言模型 (LLM) 越来越多地被广泛应用于现实世界的应用中。尽管LLM的表现令人印象深刻，但最近的研究表明，即使通过人类反馈的强化学习或监督微调进行调整，LLM也很容易受到故意设计的对抗性提示的影响。虽然现有的防御方法侧重于检测有害提示或通过各种手段减少有害响应的可能性，但基于 LLM 内部机制来保护 LLM 免受越狱攻击仍然很大程度上尚未探索。在这项工作中，我们研究了llm如何响应有害提示，并提出了一种称为特定层编辑（LED）的新颖防御方法，以增强llm抵御越狱攻击的能力。通过 LED，我们揭示了llm早期层中存在几个关键的安全层。然后，我们表明，将这些安全层（以及一些选定的附加层）与已识别有毒层的解码安全响应重新对齐，可以显着提高llm针对越狱攻击的一致性。各种 LLM（例如 Llama2、Mistral）的广泛实验表明了 LED 的有效性，它可以有效防御越狱攻击，同时保持良性提示下的性能。代码

贡献：

1. 我们发现，只有LLM的某些早期阶段在识别有害提示方面发挥着至关重要的作用。一旦这些层被移除，LLM就会产生有害的反应，就好像对齐被取消一样。

2. 我们观察到，虽然越狱提示会导致LLM 生成有害响应，但并非所有层都被成功攻击。某些层显示出解码拒绝令牌的概率相对较高，这表明越狱攻击可能仅限于更改最终响应而不是所有层的中间输出。

3. 我们提出了一种新颖的越狱防御方法，LED，它利用有针对性的模型编辑来增强LLM抵御对抗性攻击的安全性，同时保持良性提示的性能。

4. 跨各种 LLM（例如 Llama2、Mistral）的广泛实验表明，LED 可以有效防御各种最先进的对抗性攻击。

方法

左图：逐层剪枝分析涉及选择性剪枝层并观察剪枝后的 LLM 响应的变化。当安全层被移除时，法学硕士令人惊讶地对未改变的有害查询提供有害响应；

中图：通过将第 l 层的隐藏状态 hl 解码到词汇空间 vl ∈ R#vocab×1 来定位促进有害反应生成的有毒区域；

右图：特定于层的编辑首先识别对于防御有害提示至关重要的层，然后编辑这些层以增强 LLM 的稳健性，其中我们将所有有毒层的解码信息与安全响应对齐。

LED方法包含三步：

1）选择编辑层，其中包括主要与有害查询的安全对齐相关的安全层和仅有助于防御的附加层

通过剪枝的方式选出安全层，迭代地移除一个或多个连续层，直到模型输出有害内容。作者设置对一个L层的模型，从第l层到第l+n层进行移除，观察剩余模型是否会输出有害内容，如果剩余模型输出有害内容则认为这n层为安全层候选

注意：l是从第1层开始而不是第0层，n=min(L/2,L-l)即不会出现移除全部层的情况，为了保证模型能正常输出内容

2）定位有毒层，作为优化对象，充分消除意外信息

输入有毒的对抗性后缀提示词，将第l层的隐藏层向量编码到词典大小的空间中，使得我们能直观看到每个词汇的概率大小。

计算每层的毒性，作者首先选出那些词汇是有害的，其他的认为是安全或者无关词汇，有害token的概率与logits向量中最大概率的比值超过0.5则认为这层是有毒层

3）特定层的编辑，将编辑后的层与有毒层解码的安全响应对齐，从而增强对越狱攻击的防御效果

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读】Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing

大型语言模型 (LLM) 越来越多地被广泛应用于现实世界的应用中。尽管LLM的表现令人印象深刻，但最近的研究表明，即使通过人类反馈的强化学习或监督微调进行调整，LLM也很容易受到故意设计的对抗性提示的影响。虽然现有的防御方法侧重于检测有害提示或通过各种手段减少有害响应的可能性，但基于 LLM 内部机制来保护 LLM 免受越狱攻击仍然很大程度上尚未探索。在这项工作中，我们研究了llm如何响应有害提示，并提出了一种称为特定层编辑（LED）的新颖防御方法，以增强llm抵御越狱攻击的能力。
复制链接

扫一扫

Devil Like CSDN认证博客专家 CSDN认证企业博客

码龄4年

11: 原创

4万+: 周排名

9万+: 总排名

4386: 访问

: 等级

167: 积分

66: 粉丝

60: 获赞

5: 评论

77: 收藏

私信

关注

热门文章

分类专栏

笔记 2篇
oj 1篇
bupt 1篇

最新评论

【论文阅读】Protecting Your LLMs with Information Bottleneck
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Defending Large Language Models Against Attacks With Residual Stream Activation Analysis
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Refuse Whenever You Feel Unsafe: IMPROVING SAFETY IN LLMS VIA DECOUPLED REFUSAL TRAINING
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。