【论文阅读】Jailbreak and Guard Aligned Language Modelswith Only Few In-Context Demonstrations

 对齐语言模型的通用和可迁移对抗攻击

 论文地址:https://arxiv.org/abs/2310.06387

1.Motivation

  • 之前的越狱攻击方法可以通过对有害请求添加对抗前缀或后缀来破解对齐的LLM,以产生有害的答案。然而,由于这些前/后缀的不自然性,这些对抗性prompt可以通过简单的困惑检测器轻松防御。
  • 本文提出是否可以利用LLM的上下文学习(ICL)能力来使用自然语言越狱LLMs。利用模型的上下文学习能力,我们可以通过首先向LLM展示另一个有害的查询-答案演示来诱导LLM生成所需的内容。
  • 此外,由于这个对抗演示也使用自然语言,因此上下文攻击也更加隐蔽,更难被发现

2. Method

In-Context Attack

上下文攻击的方法很简单:就是在输入提示中添加对抗性演示来诱导模型完成有害指令 。

首先收集一些其他有害提示{x_i}及其相应的有害答案{y_i}作为上下文攻击演示 。

然后,将提示[x_1,y_1,···,x_k,y_k]与目标攻击提示x串联起来,得到最终的攻击提示P_attack。

 In-Context Defense

除了攻击,本文还提出了一种上下文防御(ICD)方法,对于之前的攻击方法,比如下图这种添加对抗后缀的方法,上下文防御通过添加一个安全的上下文演示来提醒模型不要生成有害输出。(防御的是其他文章的方法)。

 具体算法:

首先收集一些其他有害提示{x_i}及其相应的安全输出{y_i}作为上下文安全演示 。

然后,将提示[x_1,y_1,···,x_k,y_k] 串联起来,得到一个更安全的语言模型。

当这个安全演示与对抗指令一起输入时,这个对抗指令就会失效,不再输出有害内容。

3. Experiments

表1展示了不同上下文演示样本数下ICA的攻击成功率和基于优化的越狱方法的比较,所有这些方法都需要优化500步的提示 。

Individual:针对一个有害行为设计的对抗提示,multiple:根据多个有害行为设计的通用对抗提示

从表1的比较来看,我们的ICA攻击效果优于一些基于优化的方法,包括GBDA和PEZ。 虽然上一篇的GCG的攻击成功率非常高,但它生成的对抗后缀很容易被检测机制防御,如表2,经过过滤防御后攻击完全失效。 而本文的方法因为用到的对抗演示是自然语言形式,所以可以绕过防御检测。

表1

 

表2

表3展示了防御GCG越狱方法的效果(ASR) 分别在这俩个模型上进行了实验,可以看到原本高攻击成功率的GCG,在应用一次防御演示后攻击成功率下降非常大,应用两次时基本为0了。说明这个基于上下文学习的防御方法很有效。 

表3
  • 22
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值