【论文阅读】Defending Large Language Models Against Attacks With Residual Stream Activation Analysis

最新推荐文章于 2024-10-01 17:16:37 发布

Devil Like

最新推荐文章于 2024-10-01 17:16:37 发布

阅读量162

点赞数 10

文章标签：论文阅读语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Devilike/article/details/141362181

版权

论文：Defending Large Language Models Against Attacks With Residual Stream Activation Analysis

作者：Amelia Kawasaki 、Andrew Davis 、 Houssam Abbas

发表：

摘要

以 OpenAI 的 ChatGPT 为代表的大型语言模型 (LLM) 的广泛采用，使防御这些模型上的对抗性威胁的必要性凸显出来。这些攻击通过引入恶意输入来操纵法学硕士的输出，破坏模型的完整性和用户对其输出的信任。为了应对这一挑战，我们的论文提出了一种创新的防御策略，允许白盒访问法学硕士，利用LLM的Transformer层之间的剩余激活分析。我们应用一种新颖的方法来分析残留流中的独特激活模式，以进行攻击提示分类。我们整理了多个数据集来演示这种分类方法如何在多种类型的攻击场景（包括我们新创建的攻击数据集）中具有高精度。此外，我们通过集成法学硕士的安全微调技术来增强模型的弹性，以衡量其对我们检测攻击能力的影响。结果强调了我们的方法在增强对抗性输入的检测和缓解、推进法学硕士运作的安全框架方面的有效性。

方法

贡献：

1、用模型的残差数据集训练一个LigtGBM分类器，对输入prompt进行识别（两类Attack、Benign）

2、使用防御分类检测输入提示词

关注

10
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Devil Like CSDN认证博客专家 CSDN认证企业博客

码龄4年

15: 原创

17万+: 周排名

7万+: 总排名

7098: 访问

: 等级

261: 积分

98: 粉丝

114: 获赞

5: 评论

118: 收藏

私信

关注

热门文章

分类专栏

survey 1篇
笔记 2篇
oj 1篇
bupt 1篇

最新评论

【论文阅读】Protecting Your LLMs with Information Bottleneck
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Defending Large Language Models Against Attacks With Residual Stream Activation Analysis
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Refuse Whenever You Feel Unsafe: IMPROVING SAFETY IN LLMS VIA DECOUPLED REFUSAL TRAINING
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。