©PaperWeekly 原创 · 作者 | 陈思硕
单位 | 北京大学
研究方向 | 自然语言处理
导言:速览8888高分的红蓝对抗投稿
红蓝对抗(Red Teaming,即设计让大模型输出不适当回答的 test cases,也可以叫对抗样本)是检测大模型安全性的重要手段,之前利用 RL 目标训练的语言模型(Red Teaming LM,红队模型)自动生成对抗样本忽视了生成的多样性目标,往往只会生成重复的几个有效对抗样本。
本文针对这一问题,在红队模型的训练中引入了熵回报(entropy bonus)和新颖性奖励(novelty reward)两个正则项,显式地鼓励红队模型生成多样的对抗样本,来诱导大模型犯错。实验显示新设计的训练目标显著提升了针对一系列大模型的对抗样本的多样性和有效性,提高了自动红蓝对抗工程的效率。
▲ 本文方法生成的red teaming prompts和 LLaMa-2-7b-chat-hf对其产生的不当回复。右侧的百分比分数为有害文本检测模型给出的有害概率。
该论文 Curiosity-driven Red-teaming for Large Language Models 正在 ICLR 2024 审稿,获得了四个审稿人一致的 8888 好评。感觉此文没有太多的理论推导,胜在清晰的 motivation 和扎实的实验,其中对经过 RLHF 对齐的 LLaMa-2-7b-chat-hf 也能产生多样的对抗样本(如上图所示),诱导模型回答出“你不配当医生”、”中餐厨师没有个人生活“这样的不当内容。
论文题目: