LLaMA2+RLHF=脆皮大模型?ICLR 2024高分投稿:多样性驱动的红蓝对抗

本文针对红蓝对抗样本缺乏多样性的问题,提出在红队模型训练中加入熵回报和新颖性奖励,以鼓励生成多样化的对抗样本,提高对大模型的安全性评估。实验表明,这种方法能有效提升对抗样本的有效性和多样性,甚至能攻破经过RLHF对齐的LLaMa-2-7b-chat-hf模型。
摘要由CSDN通过智能技术生成

ee687457803fbd863c288333bed5d52a.gif

©PaperWeekly 原创 · 作者 | 陈思硕

单位 | 北京大学

研究方向 | 自然语言处理

a8dcde6d3a379a8e7727da792c8be7dc.png

导言:速览8888高分的红蓝对抗投稿

红蓝对抗(Red Teaming,即设计让大模型输出不适当回答的 test cases,也可以叫对抗样本)是检测大模型安全性的重要手段,之前利用 RL 目标训练的语言模型(Red Teaming LM,红队模型)自动生成对抗样本忽视了生成的多样性目标,往往只会生成重复的几个有效对抗样本。

本文针对这一问题,在红队模型的训练中引入了熵回报(entropy bonus)和新颖性奖励(novelty reward)两个正则项,显式地鼓励红队模型生成多样的对抗样本,来诱导大模型犯错。实验显示新设计的训练目标显著提升了针对一系列大模型的对抗样本的多样性和有效性,提高了自动红蓝对抗工程的效率。

49c4f370a4982d59e95b6be52346b903.png

▲ 本文方法生成的red teaming prompts和 LLaMa-2-7b-chat-hf对其产生的不当回复。右侧的百分比分数为有害文本检测模型给出的有害概率。

该论文 Curiosity-driven Red-teaming for Large Language Models 正在  ICLR 2024 审稿,获得了四个审稿人一致的 8888 好评。感觉此文没有太多的理论推导,胜在清晰的 motivation 和扎实的实验,其中对经过 RLHF 对齐的  LLaMa-2-7b-chat-hf 也能产生多样的对抗样本(如上图所示),诱导模型回答出“你不配当医生”、”中餐厨师没有个人生活“这样的不当内容。

4bd92dcfd7392e0893f4dbc1fca92d60.png

论文题目:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值