Nature子刊发表通用医学大模型-MedFound应用于辅助疾病诊断! 北医三院、北邮以及香港中文大学联合推出

最新推荐文章于 2025-04-24 20:30:00 发布

程序员笑武

最新推荐文章于 2025-04-24 20:30:00 发布

阅读量1.4k

点赞数 27

文章标签：人工智能 gpt 音视频 storm 大数据

本文链接：https://blog.csdn.net/m0_59164304/article/details/145322442

版权

发表在期刊《Nature Medicine》文章《A generalist medical language model for disease diagnosis assistance》研究了一种通用医学语言模型，旨在为疾病诊断提供辅助支持。模型通过自然语言处理（NLP）和机器学习技术，能够从患者的医疗记录、临床症状、实验室检查结果等多维数据中提取有价值的信息，并对多种疾病进行分析和推断。作为“通用型”模型，它并不局限于某一特定领域或疾病，而是能够广泛适用于多种疾病的诊断过程中。通过这种方式，该模型能够为临床医生提供基于数据的诊断建议、帮助识别潜在疾病、优化决策流程，从而提高诊断效率和准确性，减少诊断误差，最终促进个性化医疗和精准治疗的发展。

01.引言

在医学领域，诊断准确性对患者治疗和预后至关重要。然而，误诊率仍然较高，尤其在初级医疗层面，约达20%。为了提高诊断的准确性，医学界不断努力，推动传统方法、技术创新和人工智能（AI）的应用。近年来，基于大型语言模型（LLM）的自然语言处理技术在医学中展现出巨大潜力，能够实现诊断过程的智能化和精准化。本研究介绍了面向医学诊断辅助的通用型医学语言模型——MedFound。该模型通过大规模医学语料库预训练，结合临床知识和自然语言理解技术，旨在提升诊断准确性和效率。通过一系列实验验证，MedFound在多个临床科室中表现出广泛的应用前景，并提出了用于评估LLM性能的CLEVER框架，涵盖了医学案例理解、诊断推理等多个方面。研究表明，随着技术的进步，LLM将在医学诊断中发挥越来越重要的作用。

02.模型介绍

文章研究了一种名为MedFound的通用医学语言模型，及其针对疾病诊断辅助优化的变体MedFound-DX-PA。

一、模型架构

基础模型选择：

MedFound基于BLOOM家族的LLMs（大型语言模型），具体采用了具有1760亿参数的BLOOM-176B作为基础模型。

预训练阶段：

为了使模型适应医学领域，首先在包含1.61TB文本的多语言语料库上对模型进行预训练。这一阶段的目标是提升模型在医学相关任务上的终端性能。

微调阶段：

使用包含诊断理由的数据集对MedFound进行微调，以学习诊断推理能力，从而得到MedFound-DX。
为了进一步增强模型的诊断推理能力，采用了自我引导（self-bootstrapping）方法，通过生成和校正诊断理由来迭代优化模型。

偏好对齐阶段：

为了使MedFound-DX与真实世界的诊断场景和人类专家偏好对齐，提出了一个统一的偏好对齐框架（PA框架）。该框架结合了诊断层次结构偏好和有用性偏好，以优化模型的输出。

二、组成模块及功能

预训练模块：

负责将基础语言模型（BLOOM-176B）适应到医学领域。通过在大规模医学语料库上的训练，模型能够学习到医学相关的词汇、短语和概念。

微调模块：

使用包含诊断理由的数据集对模型进行微调。这一阶段的目标是使模型能够基于医学记录生成合理的诊断理由和诊断结果。
自我引导方法在这一阶段起到了关键作用，它帮助模型在没有大量人工标注数据的情况下学习诊断推理。

偏好对齐模块：

诊断层次结构偏好：根据国际疾病分类（ICD）的疾病分类层次结构，引导模型生成符合标准的诊断。
有用性偏好：通过训练一个有用性评分模型，对模型生成的诊断理由进行评分，并根据专家注释优化这些理由的有用性。
这一模块的目标是使模型的输出更加符合临床实践和人类专家的期望。

推理与生成模块：

负责根据输入的医学记录生成诊断理由和诊断结果。这一模块在微调阶段已经学习了诊断推理的能力，并在偏好对齐阶段进一步优化了输出的质量和有用性。

综上所述，MedFound模型架构通过预训练、微调和偏好对齐三个阶段，以及各个组成模块的协同工作，实现了对医学领域知识的有效学习和应用，为疾病诊断提供了有力的辅助工具。

诊断通用模型的开发与评估示意图

03.研究结果

MedFound模型的研究成果显著，特别是在疾病诊断辅助方面表现出色。

研究成果

预训练与微调效果

MedFound在大规模医学语料库（MedCorpus）上进行预训练，该语料库涵盖广泛的医学知识和实际临床案例。
通过使用包含诊断理由演示的医学记录数据集（MedDX-FT）对MedFound进行微调，模型能够模仿医生的诊断推理过程。

诊断性能评估

常见疾病诊断性能：在分布内（ID）评估中，MedFound-DX-PA的平均Top-3准确率为84.2%，显著优于其他领先的语言模型，如MEDITRON-70B、Clinical Camel-70B和Llama 3-70B，以及GPT-4o。
罕见疾病诊断性能：在零样本学习设置下，MedFound-DX-PA在八个专业中的平均Top-3准确率为80.7%，显著高于其他模型。在长尾疾病分布评估中，MedFound-DX-PA在超罕见疾病（≤0.1%）和罕见疾病（0.1%~1%）中的平均准确率分别为87.4%和89.2%，也显著优于其他模型。

医生对比研究

在内分泌学和肺科医生的对比研究中，MedFound-DX-PA的诊断准确率分别为74.7%和72.6%，均优于初级和中级医生，但与高级医生相当。
AI辅助诊断显著提高了初级和中级医生的诊断准确率，在肺科和内分泌学中分别提高了11.9%和4.4%。

多场景表现

MedFound-DX-PA在常见疾病、罕见疾病的长尾分布以及外部验证场景中均表现出色。
模型能够生成详细的诊断理由，提高了医生的信任度，并使模型的输出更加透明。

与其他模型的比较

在MedDX-Test数据集上，MedFound（不使用SC）相比其他LLMs的平均性能，在微准确率上提高了14.4%。
在MedDX-OOD和MedDX-Rare数据集上，MedFound也分别实现了11.9%和11.1%的微准确率提升。

综上所述，MedFound模型在疾病诊断辅助方面取得了显著的研究成果。其高效的预训练与微调策略、出色的诊断性能、与医生的对比表现以及多场景下的优异表现，都证明了该模型在医学诊断领域的巨大潜力。

04.研究意义

推动医学AI发展：

文章的发表标志着在医学领域，特别是疾病诊断辅助方面，大型语言模型（LLM）的应用取得了重要进展。MedFound模型的提出和验证为医学AI的发展提供了新的思路和方法。

提高诊断准确性：

通过实验数据表明，MedFound模型在多个疾病诊断任务中表现出色，其准确性甚至超过了部分专业医生。这对于提高疾病诊断的准确性、减少误诊和漏诊具有重要意义。

引领医学AI研究新方向：

文章中提出的基于自我引导策略的链式思考（COT）微调方法、统一偏好对齐框架等创新方法，为医学AI的研究提供了新的方向。这些方法的应用可以进一步提升医学AI的性能和实用性。

推动跨学科合作：

MedFound模型的研发涉及多个学科的知识和技术，包括自然语言处理、深度学习、医学等。因此，该文章的发表有助于推动跨学科合作，促进相关领域的发展和进步。

提升医疗智能化水平：

随着MedFound等医学AI模型的不断发展和完善，医疗智能化水平将不断提升。这将为患者提供更加便捷、高效的医疗服务，同时也有助于提升医疗质量和安全性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述