突破性研究:Med-R1医疗大模型如何通过强化学习实现跨模态医学推理的普适性突破

img

*引言:医疗AI的新篇章*

在医疗人工智能领域,视觉-语言模型(Vision-Language Models,VLMs)的发展一直是研究热点。随着GPT-4o、Gemini-1.5等通用大模型在自然场景中展现出令人惊叹的推理能力,我们不禁要问:这些模型能否在医学影像的复杂解读中同样胜任?

近日,来自埃默里大学、南加州大学、东京大学和约翰霍普金斯大学的研究团队带来了一项突破性研究 - Med-R1,这是一个专为医学推理设计的视觉-语言模型框架,通过创新性地应用强化学习技术,显著提升了模型在多种医学影像模态中的泛化能力和可信度。

与传统的监督式微调(SFT)方法不同,Med-R1利用强化学习(RL)鼓励模型探索多样化的推理路径,从而实现了更强的泛化能力和更高的可解释性。 这种方法不仅在技术上具有创新性,更在医疗AI应用方面具有重大意义 - 它为构建真正能够获得临床医生信任并满足严格监管要求的医疗AI系统铺平了道路。

*医学影像AI面临的独特挑战*

医学影像与日常生活中的自然图像有着本质区别。医学数据要求精确解读,需要VLMs不仅能给出最终结论,还能提供符合临床逻辑的步骤性推理过程。例如,诊断CT扫描中的肺结节需要定位病变、分析形态特征并整合患者病史 - 这一推理链必须既准确又可解释,才能赢得临床医生的信任。

然而,目前的医疗VLMs主要存在两个根本性问题:

  1. 监督式微调(SFT)固有的局限性:SFT倾向于让模型记忆特定任务的捷径,而非学习可泛化的推理能力。通过直接将模型输出与最终答案对齐,SFT鼓励模型过度拟合训练数据中的表面模式。
  2. 高质量思维链(Chain-of-Thought,CoT)标注的稀缺:与通用域任务不同,医学推理需要特定领域的逻辑结构(如在确认恶性肿瘤前系统排除鉴别诊断)。然而,创建这样的CoT数据集成本极高,需要经验丰富的医学专业人员进行细致标注。

这些挑战导致现有的基于SFT的医疗VLMs缺乏高质量的CoT数据,从而产生浅层且非临床基础的推理。这些模型经常产生"黑盒"预测,无法生成可解释的理由或适应跨域任务。这种透明度和稳健性的缺乏对临床采用构成了重大挑战。

*Med-R1:强化学习驱动的医学推理新方法*

为解决上述挑战,研究团队提出了Med-R1框架,利用强化学习(RL)增强医疗VLMs的泛化能力和可信度。

*GRPO:强化学习的创新实现*

Med-R1基于最近的强化学习优化进展,采用了群体相对策略优化(Group Relative Policy Optimization,GRPO)。与传统的近端策略优化(Proximal Policy Optimization,PPO)不同,GRPO无需复杂的价值模型,通过基于医学指南的规则奖励和群体相对比较来稳定策略更新。

GRPO的形式化定义如下:

其中,是策略比率,是估计的优势。KL散度项正则化策略更新,确保不会过度偏离参考模型。

与PPO不同,GRPO通过采样一组响应并在组内归一化它们的奖励来估计相对优势,而非使用评论模型来估计单个响应的优势。

*奖励设计:引导医学推理*

Med-R1采用两种类型的奖励:格式奖励和准确性奖励。

  • 格式奖励:检查最终响应中是否存在适当的标签结构。模型被引导在"…“标签中输出其思考过程,在”…"标签中给出最终答案。如果标签存在且正确,将给予1分奖励。
  • 准确性奖励:基于规则的奖励,检查实际答案是否与标准答案匹配。同样,当结果匹配时,给予1分奖励。

这种奖励设计促使模型发展出更符合临床推理路径的能力,例如优先考虑与放射学决策树对齐的推理步骤,确保临床上合理的理由。

*Med-R1的全面评估*

研究团队对Med-R1进行了严格的评估,涵盖了两个关键方面:跨模态泛化能力和跨任务泛化能力。

*数据集与实验设置*

研究采用了来自OmniMedVQA基准的VQA数据,包含82,059张图像和88,996对视觉问答对。这些数据来自八种影像模态:CT(15,808)、MRI(31,877)、X射线(7,916)、超声(10,991)、皮肤镜(6,679)、眼底(5,398)、OCT(4,646)和显微镜(5,680)。

数据还被分为五种VQA问题类型:解剖识别(16,448)、疾病诊断(55,387)、病变分级(2,098)、模态识别(11,565)和其他生物属性(3,498)。

实验在配备2×H100 GPU(80GB VRAM)的HGX H100服务器上进行,使用PyTorch和FlashAttention-2进行训练,从Qwen2-VL-2B-Instruct初始化,采用每GPU批量大小1(通过2步梯度累积实现有效批量大小4)和bfloat16混合精度。

*跨模态泛化结果*

img

图1:评估框架概述:八种医学影像模态和五种医学视觉问答任务。我们评估Med-R1在八种不同医学影像模态(计算机断层扫描(CT)、磁共振成像(MRI)、超声、皮肤镜、眼底照相、光学相干断层扫描(OCT)、显微镜图像和X射线成像)以及五种医学视觉问答任务:解剖识别、疾病诊断、病变分级、模态识别和生物属性分析。

为评估Med-R1的跨模态泛化能力,研究团队在八种不同的医学影像模态上测量了其准确性(表1)。Med-R1实现了69.91%的强大总体准确率,表明其能够在不同医学影像模态之间进行泛化。值得注意的是,在CT、MRI和X射线上训练的模型表现出最高的泛化能力,总体得分分别为71.44%、71.26%和72.35%。相比之下,在眼底照相(FP)和显微镜(Micro)图像上训练的模型显示出较低的泛化能力,总体准确率分别为67.67%和67.54%,这表明某些特定于模态的特征(如US和Micro中的基于纹理的成像)可能无法有效地转移到其他领域。

表1:Med-R1的跨模态泛化性能。八种医学影像模态的准确率(%),行表示训练模态,列表示测试模态。单元格阴影越深表示相应训练-测试对的准确率越高。"Overall"行/列报告每个训练和测试域的平均性能。

CT - 计算机断层扫描; MRI - 磁共振成像; US - 超声. Der - 皮肤镜; FP - 眼底照相; OCT - 光学相干断层扫描 Micro - 显微镜图像; X-Ray - X射线成像

RL fine-tuned VLM
Test TrainCTMRIX-RayUSDerFPOCTMicroOverall
CT98.374.4380.6151.9364.1765.3970.5266.1371.44
MRI62.3399.2973.7553.1875.0464.5775.5966.3171.26
X-Ray79.6768.2995.8549.3270.7576.8770.2867.7572.35
US55.8863.9670.5399.8664.7863.0263.9271.5369.19
Der53.8167.3673.3149.8095.1070.2264.0367.9367.71
FP54.9865.9575.7949.0871.3692.4465.3366.4067.67
OCT64.4870.8077.0952.6572.8973.4199.1766.8572.17
Micro60.9763.2574.9252.5664.5563.6666.8693.5167.54
Overall66.3071.6777.7357.3172.3371.2071.9670.8069.91

重要的是,69.91%的总体测试准确率突显了Med-R1在未见过的影像模态上表现良好的能力,尽管它每次只在单一领域上训练。这一结果强调了强化学习(RL)在增强跨模态转移方面的有效性,使模型能够在不需要针对每种医学影像模态进行广泛再训练的情况下保持稳健的性能。

*与零样本和SFT评估的比较*

表2:VLMs在八种模态上的性能比较:性能比较表明我们的GRPO微调模型超越了零样本通用VLMs、特定领域医疗VLMs和传统监督式微调方法,在保持临床部署可扩展性的同时实现了更高的准确率。

ModalityCTFPOCT Micro|Overall
MethodsMRI X-RayZero-Shot VLMUSDer
BLIP-2 [19]
InstructBLIPt [10] LLaMA Adapter v2f [12]56.74 28.72 21.41 67.9741.32 33.15 26.6367.58 61.04 46.4437.27 41.25 34.0540.65 62.22 51.7646.24 50.31 50.7468.08 42.59 33.0050.40 51.04 46.29 45.70 38.66 37.83
Qwen2-VL-2B [2] Qwen2-VL-7B [2]45.10 61.4638.57 45.7739.32 64.27 77.2130.86 36.0135.83 49.0843.17 35.14 59.84 59.3236.85 61.08 67.8338.11 54.60 68.05
Qwen2-VL-72B[32] 69.39 51.39 65.31 72.58 72.76
Zero-ShotMedicalVLM 38.47 40.56 30.34 24.64 32.43 30.12 26.51
Med-Flamingo [23]
MedVInT [34] 40.74
43.10 LLaVA-Medt [18] 18.69 27.47
30.68 29.88 44.95 39.03
51.74 52.83 65.57 47.65 51.91 52.26 53.99
Ours-2B (GRPO) 66.30
71.67

如表2所示,Med-R1在所有八种医学影像模态上展示了其优越性,同时保持了卓越的参数效率。对于零样本结果,每个单元格表示模型在特定模态上的零样本评估准确率。对于微调的VLM结果(最后两行),每个单元格代表总体准确率,反映了使用分别在八种训练模态上微调的模型评估时给定模态的平均泛化性能。

与通用VLMs相比,我们的2B参数模型实现了69.91%的总体准确率,超过了72B参数的Qwen2-VL 1.86%——考虑到36倍的参数差异,这是一个显著的结果。 这一优势在关键诊断任务中更为明显:Med-R1在MRI中获得71.67%的准确率,而Qwen2-VL-72B为69.39%;在皮肤镜中,Med-R1达到72.33%,而Qwen2-VL-72B为65.31%,这挑战了"规模等于性能"的普遍范式。

专门的医疗VLMs的局限性通过Med-Flamingo的30.38%平均准确率变得明显,Med-R1优于它39.53%。 这一鲜明对比强调了与我们的RL驱动适应策略相比,狭窄医疗预训练的低效性。与监督式微调方法相比,GRPO相比于SFT微调的Qwen2-VL-2B提供了15.84%的准确率提升(69.91%对54.07%),在CT解释(66.30%对51.74%)和OCT分析(71.96%对53.99%)方面的改进尤为显著。

*跨任务泛化结果*

表3:Med-R1的跨任务泛化:性能在五种临床推理任务类型中进行评估(行:训练任务,列:测试任务),单元格阴影越深表示泛化能力越强。结果表明,特定领域的训练(如疾病诊断)在保持任务内专业知识的同时,保持了对未见过任务的适应能力,特别是对模态无关技能如模态识别。

Test TrainAnatomy IdentificationDisease DiagnosisLesion GradingModality RecognitionOther AttributesOverall
AnatomyIdentification Disease Diagnosis96.0659.0755.5198.6274.8676.83
54.1698.2573.8597.8784.0981.64
52.3057.7286.2497.3274.2973.57
55.3055.4356.8899.4670.8867.59
OtherAttributes56.659.9356.8897.9196.5973.58
Overall62.8866.0865.8798.2480.1474.64

如表3所示,在"疾病诊断"数据上训练的模型实现了最佳泛化,总体准确率为81.64%。这表明疾病诊断包含了能够很好地跨任务迁移的多样化特征表示,可能是由于它同时依赖解剖和病理线索。相比之下,在"模态识别"上训练的模型在任务无关设置中表现出强大的泛化能力(在"模态识别"列中为98.24%),表明学习模态区别有助于提取可迁移的图像特征。然而,在"病变分级"上训练的模型虽然在任务内表现很高(86.24%),但可迁移性相对较低,这意味着这项任务捕获了更专业化的特征,无法有效地泛化。这些结果突显了在设计广泛医疗应用的模型时,专业化和适应性之间的权衡,强调了任务选择的重要性。

*与其他VLMs的比较*

表4:VLMs在五种医学VQA任务上的性能比较:GRPO微调在多样化推理任务中优于零样本和SFT基线。性能在五种临床推理类型(列)和三种模型类别中评估:通用VLMs(零样本)、医疗VLMs(零样本)和微调VLMs(SFT vs. GRPO)。结果表明,我们紧凑的GRPO微调2B模型甚至超过了36倍大的零样本模型,并且与SFT相比实现了更强的跨任务泛化。

MethodsAnatomyDiseaseLesionModalityOther Identification Diagnosis Grading Recognition AttributesOverall
Zero-Shot VLM
BLIP-2 [19] InstructBLIPt [10]44.3944.5129.0368.1967.9548.12
LLaMA Adapter v2f [12]44.35 33.7232.29 31.1959.25 41.9975.27 37.2923.72 34.2240.40 32.82
Qwen2-VL-2B [2]30.7036.5343.5859.9042.1942.58
Qwen2-VL-7B [2]42.5748.8352.0684.7459.6657.57
Qwen2-VL-72B[32]56.4165.7162.1598.1180.5372.58
Zero-ShotMedicalVLM
Med-Flamingof [23]24.9338.9030.7430.1914.1834.03
MedVInTt [34]40.2635.7812.7768.1030.3040.04
LLaVA-Med? [18]29.5329.2234.1826.9333.0829.25
fine-tuned VLM
Qwen2-VL-2B(SFT)53.9751.6260.7186.7763.9163.39
Ours-2B (GRPO)62.8866.0865.8798.2480.1474.64

表4显示了与其他通过零样本和SFT评估的流行VLMs的比较结果。对于零样本结果,每个单元格表示模型在特定任务上的零样本评估准确率。对于微调的VLM结果(最后两行),每个单元格代表总体准确率,反映了使用分别在五种训练任务上微调的模型评估时给定任务的平均泛化性能。

结果清楚地表明,Med-R1优于所有其他流行VLMs的零样本泛化。 值得注意的是,Med-R1甚至超过了Qwen2-VL-72B(74.64%对72.58%),后者是一个拥有多700亿参数的模型。更重要的是,这表明RL可以有效地提升具有适度容量的小型模型,为资源受限的许多现实世界应用打开了大门。相比之下,使用相同基础模型通过SFT训练的平均泛化仅为63.39%,比Med-R1低11.25%,进一步证明了Med-R1的强大泛化能力。

*Med-R1的实际应用案例*

img

图2:Med-R1的医学VQA示例。左侧面板展示了一个模态识别任务,模型正确识别了乳房X射线照片中乳房组织的存在。右侧面板说明了一个疾病诊断任务,Med-R1准确检测到腹部CT扫描中的尿石症。在这两种情况下,模型提供了可解释的推理(“思考”),解释其决策过程,然后选择最终答案。

从图2中,我们可以看到Med-R1如何在实际医学案例中应用其推理能力。在左侧的模态识别任务中,模型不仅正确识别了这是一张乳房X射线照片,还通过其"思考"过程展示了它如何分析图像特征得出这一结论。同样,在右侧的疾病诊断任务中,模型展示了其分析腹部CT扫描并识别尿石症的能力,同时提供了详细的推理过程。

这种显式的推理过程对医疗AI的临床应用至关重要,因为它提供了透明度和可解释性,使医疗专业人员能够理解并验证模型的决策过程。通过提供详细的推理路径,Med-R1不仅给出了答案,还展示了"为什么"和"如何",这对于建立医疗专业人员的信任至关重要。

*技术贡献与意义*

Med-R1代表了医疗视觉-语言模型领域的重大技术进步,其贡献可归纳为以下三点:

  1. 泛化医疗VLM与多模态显式推理:Med-R1是第一个支持八种医学影像模态(CT、MRI、超声等)的视觉-语言模型,能够生成步骤性推理解释而无需任务特定的再训练。与之前仅限于单一模态和黑盒答案的基于SFT的模型不同,Med-R1通过RL驱动的探索实现了跨域泛化。
  2. 临床约束RL驱动的推理能力:Med-R1采用群体相对策略优化(GRPO),这是一种无需显式推理监督的RL策略。GRPO整合了基于规则的奖励(如强制遵守诊断指南)和群体相对比较,使模型能够仅从最终答案标签中学习临床上合理的推理路径。
  3. 高效且稳健的泛化能力:Med-R1在跨模态准确率上优于基础模型29.94%,优于SFT基线15.84%。在跨任务泛化方面,它比基础模型提高了32.06%,比SFT基线提高了11.25%。此外,Med-R1超过了其他更大的通用领域或医疗领域模型,包括Qwen2-VL-72B和MedVInT-7B,展示了其在实际部署中的可扩展性和可信度。

*未来展望与挑战*

虽然Med-R1取得了令人印象深刻的成果,但医疗VLM推理仍处于早期阶段,面临着多方面的挑战和机遇:

  1. 多模态临床数据整合:未来研究可以探索整合更多临床数据类型,如电子健康记录、基因组数据和时间序列生理信号,以提供更全面的患者分析。
  2. 不确定性量化:在医疗决策中,了解模型何时"不确定"与获得正确答案同样重要。发展稳健的不确定性量化技术将是未来工作的关键方向。
  3. 专家对齐的可解释性:虽然Med-R1提供了推理路径,但进一步研究可以专注于确保这些解释不仅技术上正确,而且与临床专家的思维过程一致。
  4. 监管合规与伦理考量:随着医疗AI系统向临床实践过渡,确保它们符合监管标准并解决伦理考量将变得越来越重要。

*结论*

Med-R1通过将强化学习应用于医疗视觉-语言模型,展示了一条解决当前医疗AI限制的有希望的道路。通过促进跨模态和跨任务泛化能力,同时保持临床可解释性,Med-R1为构建真正可信赖、可泛化且临床可部署的医疗AI系统铺平了道路。

重要的是,Med-R1的成功挑战了"更大即更好"的传统AI范式,表明通过创新的训练方法,较小的模型可以在特定领域内实现甚至超越大得多的模型的性能。这对于医疗场景尤为重要,在这些场景中,资源限制和部署要求往往阻碍了大型模型的实际应用。

随着研究界和医疗界继续探索AI驱动的医疗解决方案,Med-R1代表了朝着更安全、更透明、临床更可靠的医疗AI系统迈出的重要一步。通过强化学习驱动的推理能力,我们或许能够最终构建出既能提高医疗专业人员效率又能真正赢得其信任的AI系统。

*Q&A环节:*

*Q1:Med-R1框架中采用的群体相对策略优化(GRPO)算法与传统的PPO有何区别?它如何在数学上实现更高效的医学推理?*

群体相对策略优化(Group Relative Policy Optimization, GRPO)是Med-R1框架的核心创新之一,它在传统近端策略优化(Proximal Policy Optimization, PPO)的基础上进行了重要改进,使其更适合医学推理任务。

从数学原理看,GRPO与PPO的主要区别在于两个方面:第一,GRPO通过基于群体的估计而非价值函数来估计优势;第二,它使用一组固定规则作为奖励信号,而不是学习型奖励模型。这使得GRPO比PPO在资源和计算效率上提高了约50%。

GRPO的形式化数学定义如下:

在这个公式中:

  • 表示用于训练的问题集,其中 是当前迭代中抽样的问题
  • 和 分别表示旧策略和当前(新)策略
  • 表示参考策略,在实践中是冻结的基础MLLM
  • 是每个问题在每次迭代中抽样的响应数量
  • 是策略比率
  • 是估计的优势
  • KL散度项 正则化策略更新,确保 不会过度偏离参考模型

GRPO的创新之处在于,它不像PPO那样使用评论模型来估计单个响应 的优势 ,而是通过采样一组响应 并在组内归一化它们的奖励来计算相对优势。每个奖励基于规则计算,无需使用奖励模型。

这种方法在医学推理任务中具有几个关键优势:

  1. 计算效率:通过消除复杂的价值模型,GRPO减少了计算开销,使模型训练更加高效。
  2. 稳定性:群体相对比较提供了更稳定的优势估计,减少了训练中的方差,这对于医学推理等高风险领域尤为重要。
  3. 领域适应性:GRPO可以整合基于医学指南的规则奖励,确保模型的推理过程符合临床标准。例如,可以设计奖励优先考虑与放射学决策树对齐的推理步骤,确保临床上合理的推理过程。
  4. 无需人工标注:与需要大量专家标注的监督学习不同,GRPO可以从有限的最终答案标签中学习合理的推理路径,解决了医学领域高质量思维链(CoT)数据稀缺的问题。

在Med-R1中,研究者使用GRPO促使模型明确输出其思考过程(在"…“标签中)和最终答案(在”…"标签中)。这不仅提高了医学推理的透明度,也使临床医生能够验证模型的决策过程,提高了系统的可信度。

总之,GRPO通过其创新的群体相对优势估计和基于规则的奖励机制,为医学视觉-语言模型提供了一种更有效、更稳定的训练方法,使Med-R1能够在减少计算资源的同时实现优越的医学推理能力。

*Q2:Med-R1的奖励设计如何引导模型发展出临床可靠的推理能力?这些奖励如何解决传统医学AI系统中的"黑盒"问题?*

Med-R1的奖励设计是其成功的关键因素之一,通过精心设计的奖励机制,模型能够发展出临床可靠的推理能力,并有效解决传统医学AI系统中的"黑盒"问题。

在强化学习框架中,奖励信号直接指导模型行为,Med-R1采用了两类关键奖励:格式奖励和准确性奖励。这种双层奖励结构不仅关注最终答案的正确性,还重视推理过程的可解释性和结构化表达。

*格式奖励:促进结构化推理*

格式奖励旨在检查模型的响应是否遵循预定义的结构,具体来说,Med-R1被引导在"…“标签中明确输出其思考过程,并在”…"标签中给出最终答案。当模型正确使用这些标签时,会获得1分奖励。

这种设计有几个重要意义:

  1. 强制推理可见性:通过要求模型明确表达其思考过程,格式奖励确保了推理不再是隐藏的"黑盒",而是变得透明可见。
  2. 结构化知识组织:这种标签结构帮助模型区分推理过程和最终结论,使模型学会以类似医学专业人员的方式组织其知识和推理。
  3. 临床实用性提升:结构化输出使临床医生能够快速识别模型的推理路径和最终诊断,提高了系统在实际医疗环境中的可用性。

如我们在论文图2所示的实际案例中可以看到,模型能够清晰地区分其思考过程和最终答案,提供类似医学专家的分析路径。这解决了传统医学AI系统常见的"黑盒"问题,即只给出结论而不解释如何得出该结论。

img

*准确性奖励:确保临床正确性*

准确性奖励是基于规则的奖励,检查模型的最终答案是否与标准答案匹配。当结果匹配时,同样给予1分奖励。在实践中,标准答案通常是多项选择题的字母选项(如"A, B, C, D"),系统将所有以正确字母选项开头的响应视为正确。

这种设计也有几个关键优势:

  1. 明确的目标信号:准确性奖励为模型提供了明确的学习目标,确保其推理最终导向正确的医学结论。
  2. 无需复杂的奖励模型:与需要训练单独奖励模型的方法不同,这种基于规则的奖励简单直接,降低了系统复杂性。
  3. 临床规范的整合:准确性奖励可以灵活地整合医学专业标准,例如,可以根据放射学指南为某些诊断路径分配更高的奖励。

*奖励协同作用与黑盒问题解决*

Med-R1的奖励设计通过格式和准确性奖励的协同作用,有效解决了传统医学AI系统的"黑盒"问题:

  1. 平衡过程与结果:通过同时奖励正确的推理过程和最终答案,Med-R1避免了只关注结果而忽视过程的倾向。
  2. 从答案到推理的逆向学习:即使只有最终答案的标签(无需昂贵的专家标注的推理路径),模型也能通过强化学习逐步发展出合理的推理能力,这解决了医学领域高质量思维链(CoT)数据稀缺的问题。
  3. 临床逻辑的自然浮现:随着训练的进行,模型逐渐学会生成符合医学逻辑的推理路径,例如在皮肤病诊断中,模型会先分析病变形态特征,再考虑可能的诊断及鉴别诊断。

实验结果显示,这种奖励设计使Med-R1在各种医学影像模态上实现了显著的性能提升。如表2所示,Med-R1(2B参数)实现了69.91%的平均准确率,相比基础模型Qwen2-VL-2B提高了29.94%,甚至超过了拥有36倍参数的Qwen2-VL-72B模型。这证明了该奖励设计在促进模型发展出既准确又可解释的医学推理能力方面的有效性。

ModalityCTFPOCT Micro|Overall
MethodsMRI X-RayZero-Shot VLMUSDer
BLIP-2 [19]
InstructBLIPt [10] LLaMA Adapter v2f [12]56.74 28.72 21.41 67.9741.32 33.15 26.6367.58 61.04 46.4437.27 41.25 34.0540.65 62.22 51.7646.24 50.31 50.7468.08 42.59 33.0050.40 51.04 46.29 45.70 38.66 37.83
Qwen2-VL-2B [2] Qwen2-VL-7B [2]45.10 61.4638.57 45.7739.32 64.27 77.2130.86 36.0135.83 49.0843.17 35.14 59.84 59.3236.85 61.08 67.8338.11 54.60 68.05
Qwen2-VL-72B[32] 69.39 51.39 65.31 72.58 72.76
Zero-ShotMedicalVLM 38.47 40.56 30.34 24.64 32.43 30.12 26.51
Med-Flamingo [23]
MedVInT [34] 40.74
43.10 LLaVA-Medt [18] 18.69 27.47
30.68 29.88 44.95 39.03
51.74 52.83 65.57 47.65 51.91 52.26 53.99
Ours-2B (GRPO) 66.30
71.67

总之,Med-R1的奖励设计通过结合格式和准确性奖励,成功指导模型发展出临床可靠的推理能力,使医学AI系统从不透明的"黑盒"转变为可解释、可验证的"白盒",这对于提高临床医生对AI系统的信任度和促进AI在医疗领域的实际应用至关重要。

*Q3:为什么强化学习在医学推理任务中比监督式微调(SFT)表现更好?论文中的数据如何证明这一点?*

强化学习(RL)在医学推理任务中相比监督式微调(SFT)的卓越表现源于多方面的原因,论文通过严谨的实验设计和全面的数据分析提供了有力证据。这个问题涉及到AI模型训练的核心差异和医学领域特有的挑战。

*监督式微调(SFT)的根本局限*

首先我们需要理解SFT在医学推理任务中面临的根本性局限:

  1. 过度拟合和捷径学习:SFT通过直接最大化模型输出与标注答案之间的似然函数来优化参数。这种方法使模型倾向于记忆训练数据中的统计模式,而不是学习真正的推理能力。在医学图像中,这可能导致模型依赖于表面特征(如图像亮度、对比度或设备特定的伪影)而非真正的病理特征。
  2. 思维链(CoT)数据稀缺:医学领域获取高质量的思维链标注极其昂贵且困难。与通用领域不同,医学推理需要专业人员进行细致标注,以确保诊断有效性和临床连贯性。这导致基于SFT的医学VLMs缺乏足够的高质量推理示例来学习复杂的医学决策过程。
  3. 跨域泛化能力差:SFT模型往往在训练领域表现良好,但在遇到新的图像模态或任务类型时性能显著下降。这在医疗AI中尤为关键,因为临床实践涉及多种成像技术和诊断任务。

*强化学习的优势*

相比之下,强化学习通过奖励信号引导模型探索多样化的推理路径,具有以下关键优势:

  1. 内在逻辑发展:RL鼓励模型发展内在的逻辑步骤,而非依赖预先标注的CoT示例。通过奖励正确答案和合理推理,模型自主学习构建有意义的推理链。
  2. 减少过拟合:RL的探索性质使模型能够发现多种达到正确答案的路径,避免了过度依赖特定的表面特征或统计捷径。
  3. 更好的跨域泛化:RL引导模型学习更加一般化的推理策略,使其在未见过的影像模态和任务类型上表现更佳。
  4. 从奖励信号到推理的反向学习:即使只有最终答案的标签,RL也能帮助模型发展出合理的推理过程,降低了对大量专家标注的依赖。

*数据证据:全面的实验结果*

论文提供了全面的实验证据,清晰展示了RL相比SFT的优势:

  1. 跨模态泛化数据:如表2所示,Med-R1(GRPO)实现了69.91%的总体准确率,明显优于使用相同基础模型的SFT方法(54.07%),提升了15.84个百分点。特别是在CT解释(66.30% vs. 51.74%)和OCT分析(71.96% vs. 53.99%)等复杂任务上,差距更为显著。
ModalityCTFPOCT Micro|Overall
MethodsMRI X-RayZero-Shot VLMUSDer
BLIP-2 [19]
InstructBLIPt [10] LLaMA Adapter v2f [12]56.74 28.72 21.41 67.9741.32 33.15 26.6367.58 61.04 46.4437.27 41.25 34.0540.65 62.22 51.7646.24 50.31 50.7468.08 42.59 33.0050.40 51.04 46.29 45.70 38.66 37.83
Qwen2-VL-2B [2] Qwen2-VL-7B [2]45.10 61.4638.57 45.7739.32 64.27 77.2130.86 36.0135.83 49.0843.17 35.14 59.84 59.3236.85 61.08 67.8338.11 54.60 68.05
Qwen2-VL-72B[32] 69.39 51.39 65.31 72.58 72.76
Zero-ShotMedicalVLM 38.47 40.56 30.34 24.64 32.43 30.12 26.51
Med-Flamingo [23]
MedVInT [34] 40.74
43.10 LLaVA-Medt [18] 18.69 27.47
30.68 29.88 44.95 39.03
51.74 52.83 65.57 47.65 51.91 52.26 53.99
Ours-2B (GRPO) 66.30
71.67
  1. 跨任务泛化数据表4揭示了Med-R1在跨任务泛化中的显著优势。RL训练的Med-R1(74.64%)比SFT训练的同一模型(63.39%)高出11.25个百分点。这表明RL确实能够帮助模型学习更通用的推理能力,而非仅针对特定任务进行优化。
MethodsAnatomyDiseaseLesionModalityOther Identification Diagnosis Grading Recognition AttributesOverall
Zero-Shot VLM
BLIP-2 [19] InstructBLIPt [10]44.3944.5129.0368.1967.9548.12
LLaMA Adapter v2f [12]44.35 33.7232.29 31.1959.25 41.9975.27 37.2923.72 34.2240.40 32.82
Qwen2-VL-2B [2]30.7036.5343.5859.9042.1942.58
Qwen2-VL-7B [2]42.5748.8352.0684.7459.6657.57
Qwen2-VL-72B[32]56.4165.7162.1598.1180.5372.58
Zero-ShotMedicalVLM
Med-Flamingof [23]24.9338.9030.7430.1914.1834.03
MedVInTt [34]40.2635.7812.7768.1030.3040.04
LLaVA-Med? [18]29.5329.2234.1826.9333.0829.25
fine-tuned VLM
Qwen2-VL-2B(SFT)53.9751.6260.7186.7763.9163.39
Ours-2B (GRPO)62.8866.0865.8798.2480.1474.64
  1. 具体模态上的表现:在某些特别具有挑战性的模态上,RL与SFT的差距更为显著。例如,在皮肤镜(Der)检测中,Med-R1达到72.33%的准确率,而SFT版本仅为51.91%,提升了20.42个百分点。这表明RL在复杂视觉特征分析方面具有特别明显的优势。
  2. 模态间转移能力表1详细展示了Med-R1的模态间转移能力。例如,在X射线上训练的模型能够在CT上获得79.67%的准确率,在眼底照相(FP)上获得76.87%的准确率,表明模型学到了可跨模态迁移的医学视觉特征。这种泛化能力在SFT模型中显著较弱。
RL fine-tuned VLM
Test TrainCTMRIX-RayUSDerFPOCTMicroOverall
CT98.374.4380.6151.9364.1765.3970.5266.1371.44
MRI62.3399.2973.7553.1875.0464.5775.5966.3171.26
X-Ray79.6768.2995.8549.3270.7576.8770.2867.7572.35
US55.8863.9670.5399.8664.7863.0263.9271.5369.19
Der53.8167.3673.3149.8095.1070.2264.0367.9367.71
FP54.9865.9575.7949.0871.3692.4465.3366.4067.67
OCT64.4870.8077.0952.6572.8973.4199.1766.8572.17
Micro60.9763.2574.9252.5664.5563.6666.8693.5167.54
Overall66.3071.6777.7357.3172.3371.2071.9670.8069.91
  1. 任务类型分析表3显示了Med-R1在不同任务类型上的泛化能力。特别引人注目的是,在疾病诊断上训练的模型展现出最佳整体泛化能力(81.64%),表明RL使模型能够学习到在多种医学任务中适用的通用推理策略。
Test TrainAnatomy IdentificationDisease DiagnosisLesion GradingModality RecognitionOther AttributesOverall
AnatomyIdentification Disease Diagnosis96.0659.0755.5198.6274.8676.83
54.1698.2573.8597.8784.0981.64
52.3057.7286.2497.3274.2973.57
55.3055.4356.8899.4670.8867.59
OtherAttributes56.659.9356.8897.9196.5973.58
Overall62.8866.0865.8798.2480.1474.64
  1. 规模效率比较:也许最令人印象深刻的是,仅有2B参数的Med-R1通过RL训练,不仅超过了同样参数量的SFT模型,还超过了拥有72B参数的Qwen2-VL-72B模型(69.91% vs. 68.05%)。这表明RL可以显著提高模型的参数效率,使小型模型表现出与大得多的模型相当甚至更好的性能。

*强化学习优势的理论解释*

这些数据结果可以从理论角度进一步解释:

  1. 策略空间探索:RL通过探索更广泛的策略空间,避免了SFT容易陷入的局部最优。在医学推理这种复杂任务中,存在多条有效的推理路径,RL能够更全面地探索这些可能性。
  2. 从结果倒推过程:RL允许模型从单一的结果标签(正确诊断)倒推合理的推理过程,数学上可表示为优化策略 使得期望奖励 最大化,其中奖励 基于最终答案的正确性。这使得模型能从有限的监督信号中学到更丰富的推理能力。
  3. 更健壮的优化目标:SFT通过最大化似然 优化参数 ,容易导致过拟合。而RL通过优化策略梯度 ,引入了更多样化的学习信号,产生更健壮的模型。

总结来说,论文通过全面的实验数据和分析,有力地证明了RL在医学推理任务中相比SFT具有显著优势,尤其是在跨模态和跨任务泛化方面。这些结果表明,强化学习通过鼓励探索多样化的推理路径,解决了传统SFT方法中思维链数据稀缺和过度拟合的问题,为构建更可靠、更通用的医学AI系统提供了有效途径。

*Q4:Med-R1如何实现跨模态泛化能力?模型在不同医学影像模态之间的迁移效果有什么规律和特点?*

Med-R1的跨模态泛化能力是其最引人注目的特性之一,它能够在各种医学影像模态间实现高效知识迁移。这种能力不仅技术上具有挑战性,在临床应用中也极为有价值,因为医疗机构通常需要处理多种成像技术产生的数据。下面我们深入分析Med-R1如何实现这种跨模态泛化以及其中表现出的规律和特点。

*跨模态泛化的技术实现机制*

Med-R1通过以下几个关键机制实现强大的跨模态泛化能力:

  1. 强化学习驱动的特征提取:与监督式微调不同,GRPO强化学习方法鼓励模型探索更广泛的特征空间。通过奖励信号引导,模型学习识别不同模态中的共同医学特征,而非仅依赖于模态特定的表面特征。这可以表示为策略 最大化预期奖励:

其中 代表医学图像, 是模型的推理路径和答案, 是奖励函数,评估推理的正确性和结构性。

  1. 思维链结构的迁移性:Med-R1通过"…"标签显式输出推理过程,促使模型学习跨模态通用的医学推理结构。例如,无论是CT、MRI还是X射线,诊断肿瘤的推理链都涉及位置识别、形态分析和鉴别诊断等步骤。
  2. 群体相对优势估计:GRPO通过采样多个候选推理路径并在群体内比较,使模型学习适应不同模态的推理策略多样性。形式上,这表现为优势函数 在群体中的相对估计:

其中 是群体大小, 是单个响应的奖励。

  1. 参数高效的知识迁移:Med-R1基于2B参数的基础模型,通过RL优化实现了比36倍大的模型更好的泛化性能。这表明模型能够有效压缩和迁移跨模态的医学知识,而非简单依赖于增加参数量。

*跨模态泛化的实证数据分析*

论文中的表1提供了全面的跨模态泛化数据矩阵,展示了八种不同医学影像模态之间的知识迁移效果。通过分析这些数据,我们可以观察到以下规律和特点:

RL fine-tuned VLM
Test TrainCTMRIX-RayUSDerFPOCTMicroOverall
CT98.374.4380.6151.9364.1765.3970.5266.1371.44
MRI62.3399.2973.7553.1875.0464.5775.5966.3171.26
X-Ray79.6768.2995.8549.3270.7576.8770.2867.7572.35
US55.8863.9670.5399.8664.7863.0263.9271.5369.19
Der53.8167.3673.3149.8095.1070.2264.0367.9367.71
FP54.9865.9575.7949.0871.3692.4465.3366.4067.67
OCT64.4870.8077.0952.6572.8973.4199.1766.8572.17
Micro60.9763.2574.9252.5664.5563.6666.8693.5167.54
Overall66.3071.6777.7357.3172.3371.2071.9670.8069.91
  1. 模态亲和性聚类:数据显示某些模态之间存在"亲和性",表现为更高的互相迁移效果。例如,CT、MRI和X射线之间的泛化性能普遍较高(CT→X射线:80.61%,X射线→CT:79.67%),这可能是因为它们都是基于辐射成像技术,共享解剖结构表示特征。
  2. 结构相似性决定迁移效果:迁移效果与影像模态的结构相似性高度相关。例如,OCT(光学相干断层扫描)和眼底照相(FP)之间表现出较好的双向迁移(OCT→FP:73.41%,FP→OCT:65.33%),这两种技术都专注于眼部成像,共享相似的解剖结构。
  3. 宏观到微观的非对称迁移:有趣的是,从宏观模态(如X射线)到微观模态(如显微镜Micro)的迁移(67.75%)通常比反向迁移(60.97%)效果更好。这可能表明宏观模态中学习的特征更容易泛化到微观模态,而微观模态中学习的细节特征在宏观成像中适用性较低。
  4. 功能性模态的独特性:超声(US)表现出相对较低的入向迁移性能(平均约52%),这可能是因为超声是一种功能性成像技术,与其他结构性成像方式有本质区别。然而,从US训练的模型在X射线上仍能获得70.53%的不俗表现,表明某些医学特征仍能有效迁移。
  5. X射线作为通用"桥接模态":X射线在接受其他模态迁移(77.73%)和向其他模态迁移(72.35%)方面都表现出色,可能是因为X射线具有较长的临床应用历史,包含了许多基础医学特征,作为不同模态之间的"桥接"。
  6. 高内部一致性:所有模态在同模态测试中都展现了极高的性能(超过90%),最高的是超声(US)达到99.86%。这表明模型在学习特定模态特征方面非常有效,同时不影响其跨模态泛化能力。

*不同模态间的知识迁移特点*

进一步分析模态对之间的具体迁移表现,可以总结以下特点:

  1. 影像物理原理的影响:基于相似物理原理的影像技术之间迁移效果更好。例如,CT和MRI都依赖于体积成像,它们之间的互相迁移效果(CT→MRI:74.43%,MRI→CT:62.33%)优于它们与平面成像技术(如皮肤镜)之间的迁移。
  2. 解剖区域的影响:关注相似解剖区域的模态之间迁移效果较好。例如,皮肤镜(Der)和眼底照相(FP)虽然使用不同技术,但都关注表面器官,它们之间的迁移性能(Der→FP:70.22%,FP→Der:71.36%)相对较高。
  3. 分辨率等级的影响:分辨率等级相近的模态之间迁移效果较好。显微镜(Micro)图像与其他大多数模态的互相迁移效果相对较低,可能是因为显微镜关注细胞级别的特征,而其他模态多关注器官或组织级别的特征。
  4. 临床应用重叠度的影响:在临床应用上有重叠的模态之间迁移效果较好。例如,CT和X射线在肺部和骨骼成像上有重叠应用,它们之间的互相迁移效果(CT→X射线:80.61%,X射线→CT:79.67%)明显高于平均水平。

*跨模态泛化的临床意义*

Med-R1的跨模态泛化能力具有重要的临床应用意义:

  1. 资源高效的部署:医疗机构可以使用单一模型处理多种影像模态,降低计算资源需求和维护成本。
  2. 稀缺模态的知识增强:对于数据较少的罕见模态,可以利用数据丰富模态上训练的知识进行迁移,提高稀缺模态的诊断性能。
  3. 一致的诊断框架:跨模态泛化能力使模型能够为不同模态提供一致的推理框架和分析结构,便于医生综合解读多模态检查结果。
  4. 新技术的快速适应:当医学影像领域引入新型成像技术时,现有模型的跨模态泛化能力可以加速AI系统对新技术的适应。

总结来说,Med-R1通过强化学习驱动的特征提取和思维链结构迁移,实现了卓越的跨模态泛化能力。这种能力在不同医学影像模态之间展现出明确的规律和特点,如模态亲和性聚类、结构相似性决定迁移效果、宏观到微观的非对称迁移等。这些发现不仅深化了我们对医学视觉-语言模型泛化能力的理解,也为未来设计更通用、更高效的医疗AI系统提供了重要启示。

*Q5:Med-R1是如何通过医学视觉问答实例实际展示其推理能力的?从实际案例看,其推理过程有何特点?*

Med-R1的实际医学视觉问答能力不仅体现在其量化性能上,更重要的是在实际案例中展示的推理过程和临床相关性。论文中的图2提供了两个具体实例,展示了Med-R1如何分析医学图像并给出推理过程。通过深入分析这些案例,我们可以揭示Med-R1推理能力的关键特点和临床价值。

img

图2:Med-R1的医学VQA示例。左侧面板展示了一个模态识别任务,模型正确识别了乳房X射线照片中乳房组织的存在。右侧面板说明了一个疾病诊断任务,Med-R1准确检测到腹部CT扫描中的尿石症。在这两种情况下,模型提供了可解释的推理(“思考”),解释其决策过程,然后选择最终答案。

*案例分析:模态识别任务*

在左侧面板中,Med-R1完成了一个模态识别任务,正确识别了乳房X射线照片(乳腺钼靶)。从推理过程可以看出以下特点:

  1. 分层分析结构:Med-R1的推理遵循从整体到局部的分层分析方法。首先识别图像的总体特征(“这是一张医学影像”),然后逐步缩小范围到特定器官系统(“这是乳房组织的图像”),最后确定具体成像技术(“这是一张乳房X射线照片”)。这种结构化分析与放射科医生的诊断思路高度一致。
  2. 特征提取与解释:模型明确指出了关键视觉特征(“图像显示为黑白灰阶”)以及这些特征如何支持其结论(“这是X射线影像的典型特征”)。这表明模型不仅能识别模式,还能解释这些模式的医学意义。
  3. 排除性推理:Med-R1在推理中使用了排除法(“不是超声、MRI或CT,因为…”),通过排除不符合的选项来增强结论的可靠性。这种方法在医学诊断中极为常见,尤其是在鉴别诊断过程中。
  4. 解剖知识整合:模型展示了对乳房解剖结构的理解(“乳腺腺体组织、纤维结缔组织和脂肪组织”),并将这些知识整合到其分析中。这种解剖知识的应用是准确医学推理的基础。

*案例分析:疾病诊断任务*

在右侧面板中,Med-R1执行了一个更复杂的疾病诊断任务,正确识别了腹部CT扫描中的尿石症。从这个案例中可以观察到:

  1. 系统性检查方法:模型首先确定了图像模态(“这是一张腹部CT扫描图像”),然后系统性地检查了相关解剖结构(“我看到肾脏、输尿管和膀胱区域”)。这种从确认模态开始的系统性方法符合放射学读片的专业流程。
  2. 异常定位与描述:Med-R1精确定位了异常(“在右侧输尿管中可以看到一个高密度(白色)结构”),并详细描述了其特征(“明显比周围软组织密度高”)。这种精确的异常定位与描述是准确诊断的关键。
  3. 密度分析推理:模型利用CT图像的独特特性——密度分析能力,指出"高密度(白色)结构在CT中通常代表钙化或结石"。这表明模型理解不同模态的物理原理及其临床解释。
  4. 综合诊断推理:Med-R1综合考虑了多方面信息,包括解剖位置、病变特征和临床知识,最终得出"尿石症(输尿管结石)"的诊断。这种综合分析能力是医学推理的精髓。
  5. 鉴别诊断考虑:尽管简洁,模型的推理中暗含了鉴别诊断的考虑,如区分结石与钙化、肿瘤等其他可能导致高密度影像的病变。

*Med-R1推理过程的关键特点*

综合分析这两个实例,Med-R1的推理过程展现出以下几个关键特点:

  1. 临床逻辑的浮现:尽管Med-R1没有接受专门的医学推理标注训练,但通过强化学习,它自然地发展出了与临床诊断高度一致的逻辑结构。这种"浮现"的临床推理能力是GRPO方法的重要成果。
  2. 多步骤推理链:Med-R1不是直接从图像跳到结论,而是构建了清晰的多步骤推理链,每一步都有其逻辑基础。例如,在疾病诊断任务中,模型遵循了"确认模态→检查解剖结构→定位异常→分析特征→得出诊断"的典型临床推理链。
  3. 视觉特征与医学知识的整合:Med-R1能够将图像中的视觉特征(如密度、形态、位置)与医学领域知识(如特定病理的影像学表现)有效整合。这种整合对于医学视觉推理至关重要。
  4. 适应不同问题类型的灵活性:从这两个例子可以看出,Med-R1能够根据问题类型(模态识别vs.疾病诊断)灵活调整其推理策略,展示了跨任务泛化能力。
  5. 分层次的确定性表达:Med-R1在推理中使用了不同程度的确定性表达(“明显是…”,“可能是…”,“通常代表…”),反映了医学推理中固有的不确定性管理。

*从数学角度分析推理过程*

从数学角度看,Med-R1的推理过程可以表示为一个概率推断过程:

其中:

  • 是医学图像
  • 是问题
  • 是最终答案
  • 是可能的推理路径,属于所有可能推理路径集合
  • 是给定图像和问题下选择特定推理路径的概率
  • 是给定推理路径、图像和问题下得出特定答案的概率

GRPO训练优化了推理路径分布 ,使模型倾向于选择既导向正确答案又符合临床逻辑的推理路径。这与纯SFT方法不同,后者仅优化 而不关注推理过程。

*实际临床价值*

Med-R1展示的推理过程具有重要的临床价值:

  1. 透明度与可验证性:明确的推理步骤使临床医生能够验证模型的决策过程,判断其是否符合医学逻辑,从而增强对AI系统的信任。
  2. 教育价值:结构化的推理过程可以作为医学学习资源,帮助学生或初级医生理解影像诊断的思维方法。
  3. 辅助诊断效率:清晰的推理链条可以帮助医生快速关注关键区域和特征,提高诊断效率。
  4. 错误可追溯性:当模型可能出错时,透明的推理过程使错误来源可追溯,便于识别和纠正潜在问题。
  5. 多模态融合基础:结构化的推理为未来整合更多临床数据(如病史、实验室结果)提供了自然框架,使模型能够向多模态临床决策支持系统发展。

总结来说,Med-R1在实际医学视觉问答案例中展示了结构化、多步骤、临床相关的推理能力,这些能力不是通过直接监督学习获得的,而是通过强化学习自然浮现的。这种推理能力不仅提高了模型性能,还增强了其临床可用性和可信度,为医疗AI系统从实验室研究走向临床应用铺平了道路。

图片

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值