无害数据也能让大模型产生有害回复?SMU发布越狱攻击新方法

de4b94ec2bc9d945be25adc97a397307.gif

09a833ee8065bb9e442555dc0bbe4ebb.png

论文标题:

Adversarial Suffixes May Be Features Too!

论文地址:

https://arxiv.org/abs/2410.00451

Github链接:

https://github.com/suffix-maybe-feature/adver-suffix-maybe-features

在人工智能领域,大型语言模型(LLMs)的安全性一直是研究的重点。这些模型在经过安全对齐后,理论上应当拒绝生成有害内容。然而,一种被称为“越狱(Jailbreak)”的现象揭示了这些模型的脆弱性:即使经过安全训练,某些技巧也能诱使它们生成有害回复。

越狱通常需要有害数据的帮助,比如在对抗性攻击时需要定义想要攻击的有害行为,或者是在有害数据上进行微调,这些方法通常可以轻易地让模型失去安全性能。

这篇工作假设并且验证了:即使是无害的数据集,也可能含有促使模型生成有害回复的特征。并且即使是在 GPT-4o 这种安全性能极好的 LLM 上面在特定的无害数据集上微调也会导致模型的安全能力消失。

fe0d095a8876fc20058a6c5eea449b5a.png

▲ 图1:从无害数据集中提取出可以让模型按照分点式语句来输出内容的后缀语句,添加到有害的请求后面,也会导致模型按照分点式输出的格式输出有害回复

b1a3102a24f6c93b40c7b3ceb934d9fb.png

从无害数据中提取通用特征

研究团队提出了一种新颖的方法,能够从无害数据中提取出能够影响模型行为的特征,并利用这些特征进行有效的越狱攻击。这种方法的核心是一种通用特征提取器,它能够生成可转移的后缀,这些后缀可以可靠地诱导出相应的模型回复(例如,特定的响应格式)。

算法的核心可以用以下数学表达式来描述:

设 为输入提示, 为初始后缀, 为目标响应。给定语言模型 ,我们的目标是优化后缀 ,使得:

3cb6bef0a4d724f096a4560b751186c2.png

其中 表示连接操作。

为实现这个目标,我们最小化以下损失函数:

9c5066c132cff43220f8c510e43ec52b.png

其中:

  • 是交叉熵损失,衡量模型输出与目标响应的差异

  • 是嵌入正则化项,确保生成的后缀与有效标记序列对应

  • 是权衡两个目标的超参数

d550db82042d269356ce2ebf3cd379f5.png

▲ 图2:通用特征提取算法

这种方法允许我们从无害数据中提取出能显著影响模型行为的特征,这些特征可能在某些情况下被用作对抗性后缀。这一发现揭示了大型语言模型中潜在的安全漏洞,即使是看似无害的数据也可能包含能够绕过安全对齐的特征。

3c6107135e5a47805130497f571ae2e9.png

实验1:从无害数据中提取的特征可以对LLM进行对抗攻击

研究团队首先利用 Alpaca 数据集构建了具有特殊特征的回复数据集。他们通过对 LLM 进行 prompt engineering,生成了两种特定格式的数据集:

  • Structure 数据集:包含分点式格式的回复

  • Poem 数据集:包含诗歌格式的回复

ccac8a7a546cb2f254961e4706903e91.png

▲ 图3:分点式格式数据集的例子

接下来,研究者们使用他们的通用特征提取方法从这些数据集中提取特征,并在其他数据集上验证了两个关键点:

  • 提取的特征在添加到普通的请求后能否导致模型输出特定格式的回复(Trans)

  • 提取的特征在添加到有害的请求后能否导致模型输出有害回复(ASR Harmfulness)

结果让人出乎意料,不仅提取的特征能够让模型按照特殊格式输出,而且即使对于 Llama2 这种安全性能较好的模型,从无害的特定输出格式数据集提取出的特征仍然可以让 LLM 回复任何有害问题。

57693e05660f26d83e57998a74dd0e58.png

▲ 图4:从无害数据集提取的特征对LLM的影响

7a653c1707d6b5ebb0fa8a837a94abb1.png

实验2:从有害数据集中提取特征也可能会让LLM生成特定格式回复

研究者们进一步在普通的有害数据集上进行特征提取,观察这些特征是否仅包含有害内容。令人意外的是,从有害数据中提取的特征在添加到正常的请求语句之后,也会导致模型按照特定格式输出。

bf0bc9d01e53dcc8de0f5b6f0218b4d8.png

▲ 图5:从有害数据集中提取的特征对正常请求的影响

值得注意的是,这里使用的有害数据集并非全部由统一输出格式的数据组成。研究者们的算法旨在从这些有害数据中提取共有特征,而这些共有特征可能会强制模型按照某个特定格式输出。

9ad5e1de702c8eb7c47f892ee9f33de8.png

实验3:在无害数据集上微调会导致模型完全丧失安全性能

基于前两个实验,研究者们总共构建了 5 个数据集:

  • Structure:分点式格式数据集

  • Poem:诗歌格式数据集

  • Basic:通过有害特征构建的基本编程格式数据集

  • Story:通过有害特征构建的故事叙述格式数据集

  • Repeat:通过有害特征构建的重复格式数据集

研究团队选择了四个当前防御性能最好的大模型(Llama2、Llama3-guard、GPT-3.5 和 GPT-4o-mini)在这五个数据集上进行微调,并观察它们微调后的安全性能。

693db1b0bd5a485d6dfc048ec9ad2faa.png

▲ 图6:不同数据集微调后的模型安全性能

实验结果令人警醒:

  • 所有模型在未经微调时都表现出很强的安全性能。

  • 在普通数据集上微调只会造成轻微的安全性损失(GPT-4o-mini 甚至完全不受影响)。

  • 然而,在 Structure、Basic、Repeat 和 Story 这些无害数据集上微调后,所有模型都出现了安全性能的显著下降,即使是安全性能极好的 GPT-4o-mini 也不例外。

  • 特别是在由有害特征构建的数据集上微调后,所有 LLM 都出现了安全性能的极大损失。

f9059bc92fc309606365cbf210b4993b.png

结论

我们的分析表明,某些无害特征可以主导并绕过大型语言模型的安全机制。这揭示了一个显著且有些被忽视的漏洞:即使是高度对齐的语言模型,也可能通过无害特征被操控而表现出有害行为。

这些发现强调了研究更稳健的对齐技术的必要性,以保护语言模型免受此类漏洞的影响,确保在微调数据集中存在主导特征的情况下,安全对齐仍然得到维护。鉴于微调在各个领域中是一种常见做法,而许多领域表现出独特的特征(例如,法律文件中的专业写作风格),解决这个问题既紧迫又重要。

更多阅读

4f93a406ec50e9ebbb245028a40de203.png

47b617dc1c38ffde46a05dce361b3cb6.png

407eddcdfc4590a3e833fd27ec3ca5f7.png

789b36286d2a04382b590356b2d68dbb.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

e377b94dc899050d7ceafda59166266a.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

805293f4ebed9b7a0b2b5e306e00047c.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值