微软AI研究团队推出LLaVA-Rad：轻量级开源基础模型，助力先进临床放射学报告生成

最新推荐文章于 2025-03-21 22:58:16 发布

新加坡内哥谈技术

最新推荐文章于 2025-03-21 22:58:16 发布

阅读量632

点赞数 7

文章标签：人工智能深度学习语言模型自然语言处理学习

本文链接：https://blog.csdn.net/2301_79342058/article/details/145559464

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

近年来，大型基础模型在生物医学领域展现出惊人的潜力，不仅在各种基准测试中取得亮眼成绩，还能在数据标注需求极低的情况下，迅速适应下游任务。然而，将这些模型真正应用于临床仍面临巨大挑战。即使是先进的GPT-4V，在多模态生物医学任务上的表现仍存在显著差距。此外，高昂的运行成本、有限的可获取性以及繁琐的手动评估流程，使得医生在处理患者隐私数据时难以直接应用这些最前沿的AI技术。https://github.com/microsoft/LLaVA-Med

随着多模态生成式AI的进步，生物医学应用的范围也在不断扩展，能够同时处理文本和图像的AI系统，已在视觉问答、放射学报告生成等任务上展现出巨大潜力。然而，临床落地依然困难重重。大型模型的资源需求使其在计算成本和环境影响方面带来不小压力，而小型多模态模型（SMMs）虽然更加高效，但在性能上与大型模型仍有较大差距。此外，开源可用的高质量模型匮乏，以及缺乏可靠的事实性评估方法，尤其是在幻觉检测方面的不足，进一步阻碍了其在医学领域的推广。

为了解决这些问题，微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了一款全新的小型多模态模型——LLaVA-Rad，并推出了CheXprompt自动评分指标，以评估模型生成报告的事实性。该系统专注于胸部X光（CXR）影像分析，这是医学影像领域最常见的检查类型，旨在自动生成高质量的放射学报告。LLaVA-Rad训练于来自七个不同来源的697,435个影像-报告数据对，当仅有结构化标签时，还利用GPT-4进行报告合成。模型在推理阶段仅需一张V100 GPU即可运行，训练则在一个包含8张A100的计算集群上，仅用一天便可完成。

LLaVA-Rad的架构代表了一种全新的小型多模态模型设计，即便规模远小于Med-PaLM M等大模型，依然能在关键指标上实现领先表现。其训练策略分为三个阶段：单模态预训练、对齐调整和轻量级跨模态学习。模型采用高效的适配器机制，将非文本模态信息映射到文本嵌入空间，确保跨模态学习的有效性。此外，LLaVA-Rad利用来自258,639名患者的697,000张去识别化胸片及其对应报告，构建了一个强大的单模态基础，并在此基础上实现高效的跨模态适应。

相比同等规模（7B参数量）的模型，如LLaVA-Med、CheXagent和MAIRA-1，LLaVA-Rad展现出卓越性能。尽管其规模远小于当前最强的Med-PaLM M，在关键评测指标上依然实现了显著提升：在放射学文本评估指标ROUGE-L上提升12.1%，在F1-RadGraph指标上提升10.1%。更重要的是，在多个数据集（如CheXpert和Open-I）上的测试表明，即便是从未见过的数据，LLaVA-Rad仍能保持稳定的高质量表现。这一优势归功于其模块化设计和高效的数据利用策略。尽管Med-PaLM M在F1-5 CheXbert指标上的优势不足1%，但LLaVA-Rad凭借更高的计算效率和更低的资源需求，使其在实际应用中更具可行性。

总体来看，LLaVA-Rad的推出标志着基础模型向临床应用迈出了重要一步。作为一个开源、轻量级的解决方案，它在放射学报告生成任务中达到了最先进的水平。其成功得益于对697,000张胸部X光影像及报告的全面训练，并结合GPT-4进行数据处理，同时采用创新的三阶段训练方法。此外，CheXprompt的引入有效解决了自动评估难题，使得模型的准确性评估可媲美专业放射科医生。这一系列突破无疑为AI在临床医学中的落地应用奠定了坚实基础，加速了人工智能与医疗行业的深度融合。