<------最重要的是订阅“鲁班模锤”------>
在 Google I/O 2025 大会上,Google 推出MedGemma,这是一套专为多模态医疗文本和图像理解设计的开放模型套件。MedGemma 基于 Gemma 3 架构构建,旨在为开发者提供一个强大的基础,用于创建需要集成分析医疗图像和文本数据的医疗应用程序。
MedGemma 提供两种配置:
- MedGemma 4B
一个拥有40亿参数的多模态模型,能够处理医疗图像和文本。它采用经过去识别医疗数据集预训练的 SigLIP 图像编码器,这些数据集包括胸部 X 光片、皮肤病学图像、眼科图像和组织病理学切片。语言模型部分在多样化的医疗数据上进行训练,以促进全面理解。
- MedGemma 27B
一个拥有270亿参数的纯文本模型,针对需要深度医疗文本理解和临床推理的任务进行了优化。这一变体专为指令调优,设计用于需要高级文本分析的应用程序。
开发者可以通过Hugging Face访问MedGemma模型,前提是同意健康 AI 开发者基础条款。这些模型可以在本地运行进行实验,或通过Google Cloud的Vertex AI部署为可扩展端点,用于生产级应用。Google提供包括 Colab笔记本在内的资源,以促进微调和整合到各种工作流程中。
MedGemma作为多种医疗相关应用的基础模型,主要应用场景包括:
1)医疗图像分类
MedGemma 4B的预训练使其成为分类各种医疗图像的理想起点,包括:
-
放射学图像(如胸部X光片、CT扫描)
-
数字病理学图像
-
眼底图像
-
皮肤病学图像
虽然与同规模模型相比,MedGemma具有强大的基线性能,但开发者应在生产环境部署前验证其性能并进行必要的改进。
2)医疗图像解读
MedGemma 4B的预训练使其能够:
-
生成医疗图像报告
-
回答关于医疗图像的自然语言问题
-
识别图像中的异常情况
尽管其基线性能强大,但尚未达到临床级别,可能需要额外的微调才能满足特定医疗场景的要求。
3)医疗文本理解和临床推理
MedGemma可以适应需要医学知识的用例,包括:
-
患者访谈
-
病患分诊
-
临床决策支持
-
医疗记录摘要生成
对于大多数用例,更大的MedGemma 27B模型通常能提供最佳性能。两种规模的 MedGemma都具有强大的基线性能,但开发者在生产环境部署前应验证其适应后的模型性能并做必要改进。
MedGemma是一个需要开发者根据预期用例进行验证的开发者模型。基于验证结果,用户可能需要进一步调整模型以提高性能。以下是可以用来提高MedGemma性能的几种适应方法:
1. 提示工程/上下文学习
对于某些使用场景,经过精心设计的提示后,MedGemma的基线性能可能已经足够,这可能包括在提示中加入少量示例响应,即所谓的上下文学习。提示工程还可以使用MedGemma将任务分解为可以单独执行的子任务。使用提示工程的适应方法需要与任何其他类型的适应方法相同级别的验证。
2. 微调
MedGemma可以进行微调以提高其在已训练任务上的性能,或向其技能库添加额外任务。对于如何使用LoRA(一种参数高效的微调技术)微调 MedGemma,可以参考提供的示例笔记本。
用户可以专门微调语言模型解码器组件,以帮助模型更好地解释图像编码器产生的视觉标记,或者同时微调两者。
3. 代理编排
MedGemma可以在代理系统中作为工具使用,与其他工具结合,例如:
-
网络搜索
-
FHIR生成器/解释器
-
用于双向音频对话的Gemini Live
-
用于函数调用或推理的Gemini 2.5 Pro
MedGemma还可以用于在本地解析私人健康数据,然后向Gemini 2.5 Pro 等中央模型发送匿名请求。MedGemma在多个医疗基准测试中表现出色:
模型 | 医疗图像分类 | 医疗图像 报告生成 | 临床问答 | 医疗文献理解 |
---|---|---|---|---|
MedGemma 4B | 89.2% 准确率 | 0.72 BLEU-4 | 76.5% F1 分数 | 83.1% 精确度 |
MedGemma 27B | - | - | 84.7% F1 分数 | 91.3% 精确度 |
以下是一些使用指南:
- 开发者应该在其特定医疗环境中验证模型性能。
- 建议医疗应用程序在部署前经过临床专家审查。
- 处理患者数据时应遵循适用的隐私法规和安全最佳实践。
- 应识别并解决可能存在的算法偏见,特别是在不同人口统计学群体中。
MedGemma代表了医疗AI开发的重要进步,为开发者提供了强大而灵活的工具,用于构建下一代医疗应用程序。通过结合多模态能力、可扩展性和适应性,这套模型为希望推进医疗保健中AI应用的开发者开辟了新的可能性。作为一个开放套件,MedGemma有潜力加速医疗 AI 创新并改善医疗结果。
更多专栏请看: