【论文精读】Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders

论文:Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders

作者:Jinseok Kim* Jaewon Jung* Sangyeop Kim Sohyung Park Sungzoon Cho

发表:arxiv

摘要

尽管大型语言模型 (LLM) 在各种任务中具有令人印象深刻的功能,但它们对不安全提示的脆弱性仍然是一个关键问题。这些提示可能会导致LLM对非法或敏感主题做出回应,对其安全和道德使用构成重大威胁。现有方法尝试使用分类模型来解决这个问题,但它们有几个缺点。随着不安全提示的复杂性日益增加,基于相似性搜索的技术可以识别不安全提示的特定特征,为这一不断发展的问题提供了更稳健、更有效的解决方案。本文研究了句子编码器区分安全提示和不安全提示的潜力,以及根据安全分类法对各种不安全提示进行分类的能力。我们引入了新的成对数据集和分类纯度(CP)指标来衡量这种能力。我们的研究结果揭示了现有句子编码器的有效性和局限性,提出了改进句子编码器以作为更强大的安全检测器运行的方向。我们的代码位于 https://github.com/JwdanielJung/Safe-Embed

方法

安全挑战知识

如果一个模型能区别一个安全提示词和一个不安全提示词,并且这个安全提示词与不安全提示词很相近,那么我们认为这个模型具备了安全挑战知识,我们通过计算相似度判断安全提示词和不安全提示词的区别。

cos_{norm}(E(p_1)E(p_2))=\frac{cos_{orig}(E(p_1)E(p_2))-cos_{mean}}{1-cos_{mean}}

安全边界相似性

现有一个句子编码器E和一个不安全提示词p,存在一个安全的提示词p‘使得p'和p有最相近的相似性

安全对比数据集

作者的另一个贡献是创建了一个安全对比数据集,选择的原始数据集是 Do-not-answer 数据集,该数据集包含900+不安全的提示词,作者通过下面的提示工程,基于GPT-4生成相似但安全的对比数据集

安全分类知识

如果一个模型能很好地识别提示词的安全分类,那么他一定具备安全分类的相关知识。

作者定义了一个指标成为分类纯度CP,用于定义模型对提示词安全分类知识的能力,作者先定义了在一个数据集中,有n个类别C,单个提示词具有一个分类粘性,即

CS_E(p,k)=\frac{1}{k}\sum_{i=1}^kI(\hat{p}_i\in C)

给定提示类别的数量k,作者定义CP为某个分类C的各个提示CS的平均值

CP_E(p,k)=\frac{1}{|C|}\sum_{p\in C}CS_E(p,k)

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值