小样本大能量！MedVLM-R1借力DeepSeek强化学习，重塑医疗AI推理能力-CSDN博客

射学影像是现代医疗诊断的关键，每年全球约有 80 亿次影像检查。随着 AI 技术的快速发展，医学视觉语言模型 (VLM) 在放射学任务中显示出良好的前景，但大多数现有的 VLM 仅产生最终答案而不展示底层推理。

然而，医学推理在临床应用中扮演着至关重要的角色。一方面，医生对于 AI 诊断结果的「可理解、可追溯」有着强烈需求；另一方面，监管部门也往往更关注模型输出的透明度，以确保临床安全性和合规性。

然而，当前大多数医学视觉语言模型往往只输出最终答案或「伪解释」，缺少完整推理链条，难以获得信任。因此，如何既保持高准确率，又能为医生和监管部门提供透明可信的推理过程，一直是摆在医疗 AI 面前的重大挑战。

为了弥补这一差距，慕尼黑工业大学（Technische Universität München，TUM）、牛津大学（University of Oxford）、帝国理工学院（Imperial College London）、麻省总医院（Massachusetts General Hospital）、谢菲尔德大学（University of Sheffield）的合作团队推出了 MedVLM-R1，一款在关注提供高准确率的同时，具备明确自然语言推理能力的医学视觉语言模型。

通过采用 DeepSeek 的强化学习框架，激励模型在不使用任何推理参考的情况下发现人类可解释的推理路径。它在仅有 600 个视觉问答（VQA）样本、2B 参数规模的轻量级条件下，在 MRI、CT 和 X 射线基准测试中的准确率从 55.11% 提高到了 78.22% 准确率，远超在大规模数据上训练的同类大模型，为可解释的医学影像分析开辟了新思路。

通过将医学图像分析与显式推理相结合，MedVLM-R1 标志着迈向临床实践中值得信赖和可解释的 AI 的关键一步。

该研究以「MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning」为题，于 2025 年 2 月 26 日发布在 arXiv 预印平台。推理模型已开源在 huggingface 平台。

论文标题：

MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning

论文地址：

https://arxiv.org/abs/2502.19634

模型地址：

https://huggingface.co/JZPeterPan/MedVLM-R1

引言

放射学影像在现代医疗中至关重要，每年会进行超过 80 亿次扫描。随着诊断需求增长，AI 驱动的影像解读需求日益迫切。

医学视觉语言模型（VLMs）在 MRI、CT 和 X 射线影像的视觉问答（VQA）中展现出潜力，可辅助医生和患者，但现有模型多依赖监督微调（SFT），存在过拟合、捷径学习以及对分布外数据（OOD）表现不佳的问题，且仅提供最终答案或「伪解释」，缺乏逐步推理能力，难以满足临床对可解释性和可信度的需求。

强化学习（RL）通过奖励模型自主发现逻辑步骤，显示出优于 SFT 的泛化能力，但传统RL依赖神经奖励模型，资源消耗大。近日，DeepSeek 推出的群体相对策略优化（GRPO）通过规则化策略减少计算需求，在资源有限的医疗领域具有潜力，但尚未得到充分探索和应用。

在最新的研究中，研究人员提出了 MedVLM-R1，这是第一个能够通过使用 DeepSeek GRPO 技术进行训练来生成具有明确推理的答案的医学视觉语言模型，可用于放射学 VQA 任务。

主要贡献如下：

具有明确推理的医学 VLM：他们推出了 MedVLM-R1，这是第一个轻量级医学 VLM，能够在最终答案的同时生成明确推理，而不仅仅是提供最终答案。

无需明确监督的新兴推理：与需要具有复杂推理步骤的数据的传统 SFT 方法不同，MedVLM R1 使用 GRPO 和仅包含最终答案的数据集进行训练，展示了无需明确监督的新兴推理能力。

卓越的泛化能力和效率：MedVLM-R1 实现了对分布外数据（例如 MRI → CT/X 射线）的稳健泛化，并且尽管是一个仅在 600 个样本上训练的紧凑型 2B 参数模型，但它的表现优于 Qwen2VL-72B 和 Huatuo-GPT-Vision-7B 等更大的模型。

▲ 图示：团队使用的提示的模板，模型响应和奖励标准的一个例子。（来源：论文）

总体表现

下表总结了各种 VLM 的域内 (ID) 和域外（OOD）性能。ID/OOD 专门指在 MRI 数据上微调的模型。

比较结果显示，使用 GRPO 和 SFT 微调的 VLM 在域内任务上的表现明显优于零样本通用 VLM。团队的 GRPO 训练模型表现出非常强大的 OOD 性能，与 SFT 同类模型相比，CT 图像提高了 16%，X 射线图像提高了 35%，凸显了 GRPO 卓越的通用性。

此外，尽管 MedVLM-R1 是一个仅使用 600 个样本进行训练的紧凑型 2B 参数模型，但它的表现优于 Qwen2-VL-72B 和 HuatuoGPT-Vision-7B 等大型模型，后者专门针对大规模医疗数据进行训练。这凸显了基于 RL 的训练方法在高效且可扩展的医疗 VLM 开发方面的巨大潜力。