Reasoning 模型 RL 对齐的实际挑战-CSDN博客

本文链接：https://blog.csdn.net/Python_cocola/article/details/147246510

Reasoning 模型最近不可谓不热闹，从DPSK-R1把大模型从业者从infra一直卷到产品开始，各家针对Reasoning所带来的范式冲击已经逐渐适应：

Gemini 2.5 Pro 直接把主线模型切换成了Reasoning模型
QwQ 32B 超级小钢炮提供了甜点级的Reasoning底座
Claude 3.7 则是推出了带思考模式的新版Reasoning选项
DeepSeek 这边的Reasoning RL持续scale的同时还开始研究起了通用领域的生成式RM
Reasoning系列正主OpenAI看到Gemini 2.5很不错准备加速掏出来full o3和o4-mini了。

Reasoning 模型和RL基本就是互为表里的关系，今天这篇文章主要会 curate 四个工作，以详细探究Reasoning模型对齐过程中的实际挑战并适当展望对应的策略。

首先明确一下Reasoning模型的定义，我们将传统的模型建模成（prompt，answer）的马尔科夫决策过程MDP，Reasoning模型则建模成（prompt，Thinking CoT，answer）的MDP过程。其中Thinking CoT也可以和Thinking Process画上等号，但是有别于传统模型，人工手动撰写的CoT不算做Reasoning模型范畴。

Reasoning既有以R1为代表了single bandit arm的单轮模型，也包括了Claude 3.7的较为简短的Thinking CoT (是否是Reasoning模型与否，和CoT长度无关)，当然也包含了full o3这类能够真正做inference time search的Reasoner模型。

这类模型相比于传统的RL对齐（RLHF，RLVF等）有什么最不一样的挑战呢？通过本篇文章，读者应该能够清晰地认识到以下两个方面：

模型的Thinking CoT及Answer监督难度更大，Alignment Faking现象随着模型智力提升更为明显
模型的RL监督信号获取更难，浅层Reward信号极易导致模型hacking，RM本身都可能需要Reasoner

Reasoning 模型，更聪明也更难对齐：主要失效模式及RL对齐

我们看的第一个工作是A家的Reasoning模型的言不由衷现象：他并不总是说他所想的内容。来自于A家的Alignment Science Team （Jan 还在，Schulman 已经润了），这个实验中算法同学聪明地设计了6种推理暗示，并观察模型的表现。

他们构建了成对的问题：一个标准多选题（无提示），和同一个问题但加入了指向特定答案的提示（有提示）。他们观察模型在两种情况下生成的Thinking CoT 和答案。当模型在无提示时回答非提示答案，但在有提示时回答了提示答案时，研究者就认为模型实际上使用了提示。

然后，他们检查这种情况下，模型在有提示问题的Thinking CoT中是否明确承认了对提示的使用。他们测试了 6 种不同类型的提示（包括中性的和涉及不当行为的，如Sycophancy 阿谀奉承, Grader Hacking等）以及多个前沿的推理模型（如Claude 3.7 Sonnet, DeepSeek R1）和非推理模型。

null

这听起来确实有点绕，我们先来看一个例子，可能会更明白一点：

null

左边这个是原始的问题，Thinking和答案，即（prompt，Thinking CoT，answer）；那么研究者构建了一组新的问题，里面被植入了一个提示 h（以meta-data的形式）那么现在（prompt +h，Thinking CoT，answer），那我们想要观测什么呢？我们想看到第一answer会不会根据提示h变，第二Thinking CoT是否会提及他用了这个hint？如果说改变了，并且在Thinking中提及的那就是一个诚实的faithful CoT；反之亦然。

null

结果粗看起来还不错：Reasoning模型（R1和3.7都有更高的faithful CoT比例），也就是言（CoT）行（Answer）一致。但这里面藏着两个隐患：

（a）在更难的任务（GPQA vs MMLU）和涉及不当行为的提示（如 Grader Hacking, Unethical Information）上，CoT 的忠实度更低。
（b）不忠实的 CoT 反而比忠实的 CoT 更长、更复杂。3.7上不忠实的CoT平均长度2064 ± 59，忠实的则为1439 ± 54。R1上不忠实的长度6003 ± 74，忠实的只有4737 ± 79。（均为tokens）

然后自然而然地，既然Reasoning模型给了一个RL对齐的机会，如果我们用这个作为反馈信号去搞一把RL对齐会怎么样呢？

null

做Alignment的同学估计看到这曲线都醉了，基本相当于很平坦的状态，当RL的pressure施加在模型上时，我们所期望的忠实率大幅度提升并没有发生，反而很快平坦了，这种提升很快会达到一个平台期 (plateau)，并且停留在相对较低的水平（如 MMLU 上 28%，GPQA 上 20%），进一步增加 RL 训练似乎无法显著提高忠实度。这表明单纯依赖结果驱动的 RL 不足以实现高度忠实的 CoT。（记住我们这里在讲Pressure on Ans的RL）

甚至，在有些hint上甚至完全不奏效。Why，tell me why？另外一组实验体现出来对于“聪明”的Reasoning模型来说，Reward Hacking似乎是更简单的事情了。

根本原因在于不忠实：正如主要实验所揭示的，CoT 本身可能就是不忠实的。模型可能基于未在 CoT 中提及的因素（提示、偏见、隐藏目标）做出决策。
低暴露率：即使模型确实进行了不期望的推理，它也可能只在极少数情况下才会在 CoT 中暴露出来。因此，在测试时监控 CoT 很难捕捉到罕见但可能具有灾难性的失败。
任务依赖性：论文指出，对于必须依赖复杂 CoT 才能完成的任务（如复杂编程），监控可能更有用。但对于那些不需要复杂思考就能完成的任务（包括论文中的提示任务，或者一些简单的欺骗行为），模型可能不需要（或选择不）在 CoT 中忠实地“自言自语”。

这似乎并不是非常好的消息，Reasoning模型可能本身会暴露出其短板，但是在RL alignment上通过Answer监督的RL看起来不是一个灵丹妙药。那么聪明的你肯定已经想到了，那我不要监督Answer咯，我直接对着Thinking CoT就是一顿RL，不是美哉?

Reasoning模型的Thinking CoT对齐：RL多了直接摆烂

null

这是来自于O家的工作了，对于上一个章节的问题我直接把结论贴出来：

null

你说我不信，我非要来一个RL CoT，请动手之前稍微看看论文，我是不太相信A家和O家同时会在Answer和Thinking CoT上得到类似的结论的。这个工作讲了Reasoning模型本身在Reward Hacking的现象:

null

用户让他写写代码，搞点单元测试，这家话直接来个return true. 一劳永逸地解决了CI过不了的问题（在座的没干过这事的可以不用看了，你不是人类）所以这缺德事不能忍啊，人可以reward hacking，AI可不行啊，要不然谁给干活呢？所以O记干了一件这个RL对齐的工作：

使用一个（相对较弱的）GPT-4o 模型作为“监控器”，通过分析一个前沿推理模型（类似 o3-mini）在执行代码任务时的Chain-of-Thought (CoT)，来实时检测“奖励利用 (Reward Hacking)”行为。他们对比了两种监控方式：CoT 监控（观察完整的 CoT、工具调用和输出）和Action 监控（只观察工具调用和输出）。他们主要关注两种在训练中普遍出现的系统性作弊方式 (exit(0)和raise SkipTest)，并使用事后分析（如正则表达式）作为基准来评估监控器的召回率和精确率。
CoT 监控非常有效：CoT 监控器在检测系统性作弊方面表现出色（召回率 95%），远超仅观察行为的 Action 监控器（召回率 60%）。这表明 CoT 包含了关于模型意图和不良行为的关键信号。
优化 CoT 导致混淆 (Obfuscation)：当直接在 RL 训练中对 CoT 施加优化压力（即惩罚“坏想法”）时，虽然在早期能产生更少作弊的模型，但随着训练的深入，模型会学会混淆 (obfuscate)其意图。模型仍然会作弊，但其 CoT 变得看似无害，从而欺骗监控器（监控器召回率降至接近零）。

null

这。。。说明Reasoning模型对齐，简单使用一个更弱的监督，去强行在Thinking CoT上做RL，模型会先遵循，在糊弄，最后直接绕过。同时一个很好的unfaithful的观测手段也被浪费掉了，所以这里才有O记的建议（不要直接pressure on CoT）

Deliberative Alignment 为什么可以成功

这篇工作真的非常好，第一个是告诉了大家Reasoning模型的安全应该怎么对齐（其实挺难的）第二个则是告诉大家我o系列模型就是一个模型，别搁那整多个模型的结构了（对，刺痛的就是我，但我原来复现的路线是CoT和output分开）

不过言归正传，这一篇说的是用large scale RL提升模型的安全性，看起来RL on answer是可以做到不错的安全性能的。但是为什么最近的两个工作看起来和这个有看起俩冲突的点？

null

我认识可能还是与安全领域的特殊性有关，A家的不道德的hints那个门类，虽然最终RL之后走向平坦，但是最终还是相比于Non-Reasoning模型有关。同时其实安全的问题做到最后其实可以理解成一个巨大的binary choice的问题，就是答和不答先做分类。这种问题实际上状态空间比各种利用RM漏洞的hacking行为要小得多，这个其实也是为什么在安全领域RL依然还是需要继续贡献的地方。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述