LLaMA2+RLHF=脆皮大模型？ICLR 2024高分投稿：多样性驱动的红蓝对抗

最新推荐文章于 2024-05-08 16:50:54 发布

PaperWeekly

最新推荐文章于 2024-05-08 16:50:54 发布

阅读量1.3k

点赞数 21

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/134778410

版权

本文针对红蓝对抗样本缺乏多样性的问题，提出在红队模型训练中加入熵回报和新颖性奖励，以鼓励生成多样化的对抗样本，提高对大模型的安全性评估。实验表明，这种方法能有效提升对抗样本的有效性和多样性，甚至能攻破经过RLHF对齐的LLaMa-2-7b-chat-hf模型。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 陈思硕

单位 | 北京大学

研究方向 | 自然语言处理

导言：速览8888高分的红蓝对抗投稿

红蓝对抗（Red Teaming，即设计让大模型输出不适当回答的 test cases，也可以叫对抗样本）是检测大模型安全性的重要手段，之前利用 RL 目标训练的语言模型（Red Teaming LM，红队模型）自动生成对抗样本忽视了生成的多样性目标，往往只会生成重复的几个有效对抗样本。

本文针对这一问题，在红队模型的训练中引入了熵回报（entropy bonus）和新颖性奖励（novelty reward）两个正则项，显式地鼓励红队模型生成多样的对抗样本，来诱导大模型犯错。实验显示新设计的训练目标显著提升了针对一系列大模型的对抗样本的多样性和有效性，提高了自动红蓝对抗工程的效率。

▲ 本文方法生成的red teaming prompts和 LLaMa-2-7b-chat-hf对其产生的不当回复。右侧的百分比分数为有害文本检测模型给出的有害概率。

该论文 Curiosity-driven Red-teaming for Large Language Models 正在 ICLR 2024 审稿，获得了四个审稿人一致的 8888 好评。感觉此文没有太多的理论推导，胜在清晰的 motivation 和扎实的实验，其中对经过 RLHF 对齐的 LLaMa-2-7b-chat-hf 也能产生多样的对抗样本（如上图所示），诱导模型回答出“你不配当医生”、”中餐厨师没有个人生活“这样的不当内容。