【论文精读】Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders

Devil Like

已于 2024-09-06 16:12:02 修改

阅读量380

点赞数 5

文章标签：论文阅读

于 2024-09-06 16:04:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Devilike/article/details/141903173

版权

论文：Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders

作者：Jinseok Kim* Jaewon Jung* Sangyeop Kim Sohyung Park Sungzoon Cho

发表：arxiv

摘要

尽管大型语言模型 (LLM) 在各种任务中具有令人印象深刻的功能，但它们对不安全提示的脆弱性仍然是一个关键问题。这些提示可能会导致LLM对非法或敏感主题做出回应，对其安全和道德使用构成重大威胁。现有方法尝试使用分类模型来解决这个问题，但它们有几个缺点。随着不安全提示的复杂性日益增加，基于相似性搜索的技术可以识别不安全提示的特定特征，为这一不断发展的问题提供了更稳健、更有效的解决方案。本文研究了句子编码器区分安全提示和不安全提示的潜力，以及根据安全分类法对各种不安全提示进行分类的能力。我们引入了新的成对数据集和分类纯度（CP）指标来衡量这种能力。我们的研究结果揭示了现有句子编码器的有效性和局限性，提出了改进句子编码器以作为更强大的安全检测器运行的方向。我们的代码位于 https://github.com/JwdanielJung/Safe-Embed

方法

安全挑战知识

如果一个模型能区别一个安全提示词和一个不安全提示词，并且这个安全提示词与不安全提示词很相近，那么我们认为这个模型具备了安全挑战知识，我们通过计算相似度判断安全提示词和不安全提示词的区别。

$cos_{norm}(E(p_1)E(p_2))=\frac{cos_{orig}(E(p_1)E(p_2))-cos_{mean}}{1-cos_{mean}}$

安全边界相似性

现有一个句子编码器E和一个不安全提示词p，存在一个安全的提示词p‘使得p'和p有最相近的相似性

安全对比数据集

作者的另一个贡献是创建了一个安全对比数据集，选择的原始数据集是 Do-not-answer 数据集，该数据集包含900+不安全的提示词，作者通过下面的提示工程，基于GPT-4生成相似但安全的对比数据集

安全分类知识

如果一个模型能很好地识别提示词的安全分类，那么他一定具备安全分类的相关知识。

作者定义了一个指标成为分类纯度CP，用于定义模型对提示词安全分类知识的能力，作者先定义了在一个数据集中，有n个类别C，单个提示词具有一个分类粘性，即

$CS_E(p,k)=\frac{1}{k}\sum_{i=1}^kI(\hat{p}_i\in C)$

给定提示类别的数量k，作者定义CP为某个分类C的各个提示CS的平均值

$CP_E(p,k)=\frac{1}{|C|}\sum_{p\in C}CS_E(p,k)$

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【论文精读】Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders

尽管大型语言模型 (LLM) 在各种任务中具有令人印象深刻的功能，但它们对不安全提示的脆弱性仍然是一个关键问题。这些提示可能会导致LLM对非法或敏感主题做出回应，对其安全和道德使用构成重大威胁。现有方法尝试使用分类模型来解决这个问题，但它们有几个缺点。随着不安全提示的复杂性日益增加，基于相似性搜索的技术可以识别不安全提示的特定特征，为这一不断发展的问题提供了更稳健、更有效的解决方案。本文研究了句子编码器区分安全提示和不安全提示的潜力，以及根据安全分类法对各种不安全提示进行分类的能力。
复制链接

扫一扫

Devil Like CSDN认证博客专家 CSDN认证企业博客

码龄4年

11: 原创

4万+: 周排名

9万+: 总排名

4384: 访问

: 等级

167: 积分

66: 粉丝

60: 获赞

5: 评论

77: 收藏

私信

关注

热门文章

分类专栏

笔记 2篇
oj 1篇
bupt 1篇

最新评论

【论文阅读】Protecting Your LLMs with Information Bottleneck
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Defending Large Language Models Against Attacks With Residual Stream Activation Analysis
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】Refuse Whenever You Feel Unsafe: IMPROVING SAFETY IN LLMS VIA DECOUPLED REFUSAL TRAINING
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。