强化学习走出代码和数学，让RL适用于医疗领域，自由格式不再是障碍

论文：Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains

数据：https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f

前人研究的局限性：

当前强化学习（RL）在处理具有挑战性和复杂性的任务时，面临着验证模型输出正确性的难题，尤其是在没有结构化、标准化答案的领域中，如医学、化学、心理学等。

传统的强化学习方法依赖于简单的二元奖励信号（正确或错误），但是这种方法无法处理那些自由格式且无明确答案的任务。

因此，研究提出了“可验证奖励的强化学习（RLVR）”框架，旨在通过利用生成式奖励模型和专家提供的参考答案来改善模型在非结构化任务中的表现。

具体问题：

现有的RL方法在面对无结构化答案时，如何验证回答的准确性成为了瓶颈。
二元奖励信号在复杂任务中的局限性无法应对实际情况的多样性。
因此，RLVR提出了一个更为灵活且高效的奖励机制，以解决这些挑战。

类比理解：

正例：一个数学问题求解系统中，答案通常是精确的，可以直接通过规则（例如公式）来验证。RL可以通过正确/错误的二元奖励来优化模型。
反例：对于医学诊断问题，答案并不固定，而是依赖于大量专业知识和数据，因此很难通过简单的规则来判定答案是否正确，必须引入更加复杂的验证机制。

这篇论文解决的问题是：

如何扩展传统强化学习的奖励机制，使其能够处理那些没有标准答案或结构化解答的复杂任务（如医学、化学、心理学等领域），从而克服单纯依赖简单二元奖励（正确或错误）在自由格式任务中的局限性。

论文通过引入可验证奖励的强化学习（RLVR）框架，利用生成式奖励模型和专家提供的参考答案，提供更细粒度、可验证的奖励信号，进而改善模型在非结构化任务中的表现。

[子解法1: 准备“带参考答案”的多领域数据 -> 子解法2: 训练或使用“生成式奖励模型” -> 子解法3: 用 RL 算法进行策略优化 -> 子解法4: 加强训练的稳定性和扩展 -> (回到子解法2, 随着数据增多再次提升奖励模型)]

子解法1：使用参考答案进行“可验证评估”
- 操作：在多领域场景下，每个问题 x 都附带一个参考答案 a。不管是数学题、化学题，还是更抽象的心理学开放题，都保留一个“专家写的”或“高质量模型生成并经审定”的正确答案。
- 之所以用“参考答案评估”的子解法，是因为“多领域的答案虽然形态多变，但仍然可以用一个对照答案来判断正确与否”这一特征。
- 对比其它算法的区别：传统 RL 里，往往需要人工设计 reward 或者用偏好对比的方式。这里则是直接利用“参考答案是否匹配” 作为可验证标准，属于“reference-based reward”思路。

子解法2：引入模型判断（Generative Reward Model），在自由文本中给出二元/软性得分
- 之所以用“生成式奖励模型”的子解法，是因为“高维自由文本答案无法简单通过规则匹配，而需要更灵活的语义理解”这一特征。
- 对比其它算法的区别：纯规则法（如字符串比对、Jaccard 相似度等）只能在答案简单且结构明确时有效；而面对医学、社科等自由文本答案，模型判定的准确性更高、可扩展性更好。

操作：

1. 用一个强大的 LLM（如 Qwen2.5-72B-Instruct）做“大裁判”，或者蒸馏出一个中等规模（7B）的“生成式奖励模型”。
2. 给它输入 问题 + 参考答案 + 模型输出，让它只生成「0 或 1」，或根据概率生成「软分数」。

子解法3：用 RL 算法（REINFORCE、RLOO 等）对基础模型进行策略优化
- 之所以用“策略梯度”的子解法，是因为“需要在生成式问题中，把回答看作一个序列来采样，对每个完整回答给奖励”的特征。此外，REINFORCE / RLOO 在有离散动作（文本 token）时更直接可用。
- 对比其它算法的区别：不依赖教师强监督（supervised fine-tuning）提供“所有解答的专家书写演示”，而是仅需有参考答案 + 自动判分即可迭代提升，尤其在大规模无显式步骤标注的场景中更灵活。

操作：

1. 给基础模型（7B）设定一个初始策略 πθ
2. 在训练集中抽取问题 x，让策略输出回答 y。
3. 由奖励模型 r(x,a,y)，判定是否正确或部分正确，得到奖励r。
4. 对策略进行梯度上升：∇θJ(θ)≈E[r∇θlog⁡πθ(y∣x)]，并带上 KL 惩罚等。
子解法4：奖励归一化 + KL 约束 + 数据扩展来增强稳定性与可扩展性
- 之所以用“归一化与 KL 约束”的子解法，是因为“当问题分布多变时，奖励可能极度偏斜，模型容易发生策略坍塌，必须加稳定措施”这一特征。
- 对比其它算法的区别：在 PPO、RLHF 等各种强化学习中，都会用到类似 KL 回退、价值归一化的思想；但这里强调“跨多个真实领域+利用参考答案”时，更需要对奖励波动进行额外控制，保证鲁棒性。

操作：

1. 给奖励做 z-score 归一化，避免奖励过于极端或零散；
2. 给策略加 KL 惩罚项，防止学崩或生成风格“飘走”；
3. 逐步增加训练样本（包括在线收集）、扩展领域，令同一个奖励模型能适配各种任务，具备多领域泛化能力。

├── 核心方法【提出整体方法框架】
│
│   ├── 输入与目标【方法前提】
│   │       ├── 输入：Prompt x（问题/指令）、参考答案 a（可能是专家写的或已有标准答案）【数据来源】
│   │       └── 目标：训练策略模型πθ(y|x)，使其在回答时更准确、更符合参考答案【任务目标】
│
│   ├── 奖励估计（Reward Estimation）【方法核心】
│   │       ├── 输入：模型生成的回答 y，与参考答案 a【评价对象】
│   │       ├── 处理过程：
│   │       │       ├── （1）二元(Binary)奖励：只输出0或1，表示“正确/错误”【简单判断】
│   │       │       ├── （2）生成式(Soft)奖励：生成概率值 p ∈ (0,1]，表示对正确性的信心【细粒度刻画】
│   │       │       └── 实现方式：使用一个生成式奖励模型或规则匹配函数，对(y,a)做匹配并得分【算法执行】
│   │       └── 输出：r(x,a,y) ∈ [0,1] 的奖励值【反馈信号】
│
│   ├── 奖励归一化（Reward Normalization）【稳定训练】
│   │       ├── 输入：原始奖励 r(x,a,y)【待归一化数据】
│   │       ├── 处理过程：采用z-score或其他方法，将奖励分布转为均值0、方差1【数据标准化】
│   │       └── 输出：稳定可比的奖励值 r_norm(x,a,y)【用于减小梯度波动】
│
│   ├── 强化学习策略更新（Policy Update via RL）【训练策略模型】
│   │       ├── 输入：当前策略模型 πθ(y|x)、归一化后的奖励 r_norm【强化学习所需】
│   │       ├── 处理过程：
│   │       │       ├── 选用不同RL算法：
│   │       │       │       ├── REINFORCE：经典策略梯度，直接基于 r_norm 来更新参数【基础方法】
│   │       │       │       ├── RLOO (Rollout-Based Optimization)：结合采样多条回答进行优化【改进采样策略】
│   │       │       │       └── REINFORCE++：在REINFORCE上引入额外修正项或技巧【优化稳定性】
│   │       │       └── 加入KL惩罚项：限制与初始参考策略（base model）的差异度【防止模型偏移过大】
│   │       └── 输出：更新后的策略模型 πθ'(y|x)【新的回答策略】
│
│   ├── 生成式奖励模型训练（Reward Model Training）【训练可泛化的RM】
│   │       ├── 输入：探索阶段收集的 (x,a,y,c) 数据，其中 c ∈ {0,1} 或软标签【训练样本】
│   │       ├── 处理过程：
│   │       │       ├── 使用更大教师模型（如Qwen2.5-72B）做“判断正确/错误”或打分【教师信号】
│   │       │       ├── 将判定结果作为监督信号，对较小规模模型(7B)进行标注学习【蒸馏】
│   │       │       └── 产出泛化能力较好的奖励模型RM-7B，可在多领域上提供打分【多领域学习】
│   │       └── 输出：RM-7B（或其他规模）作为生成式奖励模型【后续RL循环使用】
│
│   └── 输出与衔接【方法整体闭环】
│       ├── 最终输出：更新后的策略模型 πθ'(y|x)，可在多学科多场景中生成高质量回答【核心成果】
│       ├── 生成式奖励模型RM 提供持续评估，形成“策略模型 ↔ 奖励模型”循环【反馈机制】
│       └── 不断迭代：随着训练数据增长，策略模型和奖励模型均可持续提升【进化过程】
│
└── 结果与影响【方法在系统中的位置】
        ├── 提升回答在多领域的准确性和鲁棒性【优势】
        └── 减少对严格匹配规则的依赖，实现自由表达的正确性判断【价值】

基于论文所提出的“可验证奖励的强化学习（RLVR）”框架，结合医疗场景中的常见需求做具体化说明。我们将医疗场景拆解为若干子场景，如「病症诊断」、「用药建议」、「手术护理方案」、「医学教育/考试」等，并给出可行的流程、方法及一些技巧，帮助理解如何将 RLVR 落地到医疗领域。

一、整体流程概览

在医疗场景下，核心的“可验证奖励（Verifiable Rewards）”通常依赖权威或高质量参考答案，例如：

已经验证过的医学指导原则（如临床路径、诊疗标准）
医生编写的用药/手术建议范例
药典、疾病分类指南（ICD 编码等）里关于用药或治疗的信息
医学考试真题及其官方标准答案

RLVR 的主要思路：

准备多领域医学数据：包括各种病种的问诊场景、临床问答、用药分析、手术护理问答等，每个问题都带有一个（或一组）高质量“参考答案”。
训练/选择奖励模型：如果答案的形式是自由文本（如“病症诊断说明 + 医嘱 + 注意事项”），可采用与论文一致的「生成式奖励模型」进行答案比对并打分；如果答案相对简短或结构明确（如单一诊断结论、单选题），可尝试更简单的“规则匹配 + 辅助模型”方式。
RL 优化主流程：让基础语言模型（actor）对医疗问题进行回答，再由奖励模型判断其输出与参考答案的匹配度（0/1 或软分数），最后通过策略梯度（REINFORCE / RLOO 等）反传更新，使模型学会更符合专家标准的回答。
运行中注意事项：加入 KL 惩罚控制偏移、对 rewards 做归一化、防止 RL 训练发散；并根据医疗领域的专业性加强把关，必要时要有人工审核或专家验证环节。

二、不同医疗子场景下的具体用法

下面按照医疗领域常见的几个子场景，列出可行的 RLVR 方案与使用流程：

1. 病症诊断场景

典型流程：

数据准备
- 问题（prompt）形式：患者描述症状、体征、病史、化验结果等信息。
- 参考答案：权威诊断结论或专业医生给出的诊断方案（包括鉴别诊断可能性）。
奖励模型训练
- 若答案形式相对固定（如最终诊断标签 + 主要依据），可将“参考答案”视为一段文本，让生成式奖励模型判断「模型输出的诊断」是否与参考的诊断标签/总结重合；
- 如果参考答案只有一个 ICD 或 SNOMED 码（非常结构化），则可以使用“规则匹配（看输出有没有正确的 ICD 码）+ 文本对齐”相结合的混合式 Reward。
RL 优化阶段
- 让基础模型对各种症状描述进行诊断回答；
- 利用训练好的奖励模型（或暂时用大型裁判模型）判断回答与参考诊断的一致度：正确就给高分、部分对上就给中等分、明显错误给 0；
- 持续更新策略，使模型更容易输出接近专家诊断的文本。
技巧
- 对答案进行格式化，比如“请给出最终诊断：XXX”，再让奖励模型专门检查此部分，减少噪声。
- 对可能存在多种鉴别诊断的情况，使用 soft reward，更灵活地评价“是否包含了关键诊断要素”。

潜在问题：

诊断往往不止一个正确答案，需要在参考答案里包含所有可能的合理诊断结论；或在奖励模型的打分过程中允许一定程度的多样性。

2. 用药建议场景

典型流程：

数据准备
- 以「患者情况（年龄、过敏史、检验结果）」+「诊断结果」为输入；
- 参考答案为某种专业用药方案或临床路径推荐。
奖励模型训练/使用
- 如果用药方案在参考中是“自由文本”（如“首选××药物，剂量××…”），可让奖励模型判断输出与“专家用药建议”是否一致。
- 如果只需要判断药品名称和剂量，能否用简单规则？很多时候仍需要文本级理解，如注意禁忌、特殊剂量调节等，所以更倾向于生成式奖励让模型综合判断。
RL 优化
- 基础模型输出一个用药建议；
- 奖励模型对比参考答案：若符合临床规范、剂量恰当、无明显禁忌，就打高分；否则打低分或 0；
- 不断迭代，提升政策模型对合理用药方案的生成能力。
技巧
- 可以在奖励判定阶段，让奖励模型对“用药安全性”特别敏感（如出现禁忌药时自动判 0），通过在蒸馏样本里专门收集一些“错误用药”的案例进行训练。
- 在多药组合时，使用 soft reward 可以更细腻地衡量是否“部分用药正确但忽略了某些禁忌/相互作用”等。

潜在问题：

医学用药变化较快，资料要及时更新；
仍需人工专家审核，因为再好的 RL 模型，也可能在罕见病例上出错。

3. 手术护理方案场景

典型流程：

数据准备
- 问题：某种手术术后的护理要点，包括饮食、复查频率、康复锻炼等。
- 参考答案：专业护理手册或护士培训资料中标准化的护理流程。
奖励模型
- 对照“标准护理指导文本”与模型回答，判断是否涵盖术后观察指标、并发症预防、患者教育内容等关键点。
RL 训练
- 基础模型输出护理指导 → 奖励模型对比参考 → 输出 reward → 策略更新。
技巧
- 可在回答中引导“请列出 1、2、3…”之类的要点；奖励模型重点检查这些列出的要点与标准护理指导的对齐程度。
- 若输出缺失关键要点，reward 就会偏低，从而促使模型下次输出时更全面。

潜在问题：

有些护理方案非常细节化，不同医院、不同国别可能有差异标准，需要在数据收集时做本地化处理。

4. 医学教育/考试场景

典型流程：

数据准备
- 医学考试真题（如临床执照考试、住院医师规范化考试）及其官方标准答案；
- 也可包含主观题，比如“简述某疾病的病因病机”。
奖励模型
- 若是客观题（选择题/填空题），可能用“参考答案对比 + 规则”就能完成；但若答案写在大段文本中，也可用生成式模型对齐。
RL 优化
- 让基础模型去回答这些真题；
- 由奖励模型判定对错并打分；
- 不断更新，使模型更接近“官方标准答案”的语义。
技巧
- 结合一些辅助特征（如考试科目、考点），让模型在答题时自动考虑特定知识点。
- 对主观题（写病理分析、机理）最好用 soft reward，以捕捉结构或医学术语准确性。

潜在问题：

标准答案是否完备；如果真题本身更新，模型需要定期重新训练或加入新数据。

三、方法与技巧：让 RLVR 在医疗落地更有效

高质量参考答案的获取
- 对照专业医学文献、指南、或「三甲医院」医生群体标注的答案；
- 可以先用 GPT-4 类大模型生成答案，再由经验丰富的医疗团队进行审阅和改写，保证参考答案质量。
奖励模型的构建与蒸馏
- 若直接调用某家大型医学模型做“裁判”，成本较高或无法开源，可通过在线蒸馏方式收集大量回答 + 打分对，然后微调一个较小的模型（如 7B 规模）当通用医疗 Reward Model；
- 在医疗场景下，应收集更多“错误案例”（比如常见的误诊、禁忌药物）供奖励模型学习，从而在关键点上有严格惩罚。
RL 策略更新时的安全阈值
- 在医疗用途中，对错误答案要格外敏感：可以在 reward 函数中设计一个安全门槛，如出现致命错误（强烈禁忌药物），直接给 0 分并大幅度 penalty，确保模型不会屡犯此类严重错误。
- 也可考虑在 RL 训练中引入双重判定（如 reward model + 额外的安全监测模块）增强稳健性。
文本结构要求
- 对模型回答设置一些结构化提示，如“先写诊断结论，再写用药或护理建议，最后写注意事项”。奖励模型可以更精准检查这些段落是否齐全、条理是否符合标准。
- 如果答案自由散漫，容易判分混乱。
持续更新与专家校验
- 医学知识迭代快，需要周期性更新参考答案；
- 关键领域或高风险回答场景，最好由真人审核把关，不要把纯自动生成回答直接应用于临床。

四、简要示例流程

以「住院医师规培用药题」为例，做一个流程概括：

收集数据：准备 1 万道医师考试中与用药相关的问答，每题都有官方标准答案（用药名称、剂量、禁忌症等）。
构建初始 Reward Model：先让大模型（如 GPT-4）对几千条问题的回答做打分（对 or 错，或按高/中/低几个档位），再微调一个 7B Reward Model。
RL 训练：
- 基础模型（actor）对题目自动生成用药方案；
- 7B 奖励模型对比官方答案判定打分；
- REINFORCE 更新策略；
- 重复数千步迭代，学到“如何更准确给出用药建议”。
上线与反馈：模型上线后，收集一些真实临床问答的反馈（必要时医生纠正），再可进行新一轮微调，逐渐强化对更复杂的用药场景适配度。

五、总结

可验证奖励（RLVR）在医疗场景下，本质上依赖「有权威或高质量的标准答案/指南」来给模型输出打分，从而实现强化学习的训练闭环。
不同子场景（诊断、用药、护理、考试等）都可以依赖“参考答案（文本或结构化）” + “生成式奖励模型”来判定回答与标准的一致程度。
在实践中，需要注意数据质量、模型安全性、以及医疗本身的专业复杂度，多使用 soft reward 和多维度判分方式来兼容不确定性。
需要对高风险场景加额外安全保障，定期让专家审核和更新标准答案，才能让 RLVR 在医疗领域更好地发挥作用。

提示词：

给定一个问题，判断提供的（不完整的）解题过程中最终答案是否与参考答案一致。  
参考答案可能是一个单独的选项字符（例如 A、B、C、D）、一个数值、一个表达式，或者如果涉及多个问题，则是一组答案。  
参考答案可能是中文或其他语言，但你的判断应当与语言无关。  

你的任务：  
- 比较解题过程的最终输出与参考答案。  
- 如果它们**完全一致**，则输出**YES**。  
- 如果它们**不一致**，则输出**NO**。  
- 如果解题过程不清晰、不完整或含糊，假设其错误并输出**NO**。  

你的输出必须严格为**“YES”**或**“NO”**，不得包含其他任何文字、标点或解释。  

---  

**问题：**  
{question}  

**解题过程（仅最终步骤）：**  
{response}  

**参考答案：**  
{reference}  

**输出：**

数据集形式：

[ { "content": "你是一个会解决问题的聊天机器人，请解答以下问题并给出你的思考过程，在给出最终结果之前，你应该输出\"所以答案是\"，然后给出你的最终答案。", "role": "system" }, { "content": "汉文帝、景帝时期的律法改革没有废除的体罚是", "role": "user" } ]

答案：

宫刑