发表在期刊《Nature Medicine》文章《A generalist medical language model for disease diagnosis assistance》研究了一种通用医学语言模型,旨在为疾病诊断提供辅助支持。模型通过自然语言处理(NLP)和机器学习技术,能够从患者的医疗记录、临床症状、实验室检查结果等多维数据中提取有价值的信息,并对多种疾病进行分析和推断。作为“通用型”模型,它并不局限于某一特定领域或疾病,而是能够广泛适用于多种疾病的诊断过程中。通过这种方式,该模型能够为临床医生提供基于数据的诊断建议、帮助识别潜在疾病、优化决策流程,从而提高诊断效率和准确性,减少诊断误差,最终促进个性化医疗和精准治疗的发展。
01.引言
在医学领域,诊断准确性对患者治疗和预后至关重要。然而,误诊率仍然较高,尤其在初级医疗层面,约达20%。为了提高诊断的准确性,医学界不断努力,推动传统方法、技术创新和人工智能(AI)的应用。近年来,基于大型语言模型(LLM)的自然语言处理技术在医学中展现出巨大潜力,能够实现诊断过程的智能化和精准化。本研究介绍了面向医学诊断辅助的通用型医学语言模型——MedFound。该模型通过大规模医学语料库预训练,结合临床知识和自然语言理解技术,旨在提升诊断准确性和效率。通过一系列实验验证,MedFound在多个临床科室中表现出广泛的应用前景,并提出了用于评估LLM性能的CLEVER框架,涵盖了医学案例理解、诊断推理等多个方面。研究表明,随着技术的进步,LLM将在医学诊断中发挥越来越重要的作用。
02.模型介绍
文章研究了一种名为MedFound的通用医学语言模型,及其针对疾病诊断辅助优化的变体MedFound-DX-PA。
一、模型架构
- 基础模型选择:
- MedFound基于BLOOM家族的LLMs(大型语言模型),具体采用了具有1760亿参数的BLOOM-176B作为基础模型。
- 预训练阶段:
- 为了使模型适应医学领域,首先在包含1.61TB文本的多语言语料库上对模型进行预训练。这一阶段的目标是提升模型在医学相关任务上的终端性能。
- 微调阶段:
-
使用包含诊断理由的数据集对MedFound进行微调,以学习诊断推理能力,从而得到MedFound-DX。
-
为了进一步增强模型的诊断推理能力,采用了自我引导(self-bootstrapping)方法,通过生成和校正诊断理由来迭代优化模型。
- 偏好对齐阶段:
- 为了使MedFound-DX与真实世界的诊断场景和人类专家偏好对齐,提出了一个统一的偏好对齐框架(PA框架)。该框架结合了诊断层次结构偏好和有用性偏好,以优化模型的输出。
二、组成模块及功能
- 预训练模块:
- 负责将基础语言模型(BLOOM-176B)适应到医学领域。通过在大规模医学语料库上的训练,模型能够学习到医学相关的词汇、短语和概念。
- 微调模块:
-
使用包含诊断理由的数据集对模型进行微调。这一阶段的目标是使模型能够基于医学记录生成合理的诊断理由和诊断结果。
-
自我引导方法在这一阶段起到了关键作用,它帮助模型在没有大量人工标注数据的情况下学习诊断推理。
- 偏好对齐模块:
-
诊断层次结构偏好:根据国际疾病分类(ICD)的疾病分类层次结构,引导模型生成符合标准的诊断。
-
有用性偏好:通过训练一个有用性评分模型,对模型生成的诊断理由进行评分,并根据专家注释优化这些理由的有用性。
-
这一模块的目标是使模型的输出更加符合临床实践和人类专家的期望。
- 推理与生成模块:
- 负责根据输入的医学记录生成诊断理由和诊断结果。这一模块在微调阶段已经学习了诊断推理的能力,并在偏好对齐阶段进一步优化了输出的质量和有用性。
综上所述,MedFound模型架构通过预训练、微调和偏好对齐三个阶段,以及各个组成模块的协同工作,实现了对医学领域知识的有效学习和应用,为疾病诊断提供了有力的辅助工具。
诊断通用模型的开发与评估示意图
03.研究结果
MedFound模型的研究成果显著,特别是在疾病诊断辅助方面表现出色。
研究成果
- 预训练与微调效果
-
MedFound在大规模医学语料库(MedCorpus)上进行预训练,该语料库涵盖广泛的医学知识和实际临床案例。
-
通过使用包含诊断理由演示的医学记录数据集(MedDX-FT)对MedFound进行微调,模型能够模仿医生的诊断推理过程。
- 诊断性能评估
-
常见疾病诊断性能:在分布内(ID)评估中,MedFound-DX-PA的平均Top-3准确率为84.2%,显著优于其他领先的语言模型,如MEDITRON-70B、Clinical Camel-70B和Llama 3-70B,以及GPT-4o。
-
罕见疾病诊断性能:在零样本学习设置下,MedFound-DX-PA在八个专业中的平均Top-3准确率为80.7%,显著高于其他模型。在长尾疾病分布评估中,MedFound-DX-PA在超罕见疾病(≤0.1%)和罕见疾病(0.1%~1%)中的平均准确率分别为87.4%和89.2%,也显著优于其他模型。
- 医生对比研究
-
在内分泌学和肺科医生的对比研究中,MedFound-DX-PA的诊断准确率分别为74.7%和72.6%,均优于初级和中级医生,但与高级医生相当。
-
AI辅助诊断显著提高了初级和中级医生的诊断准确率,在肺科和内分泌学中分别提高了11.9%和4.4%。
- 多场景表现
-
MedFound-DX-PA在常见疾病、罕见疾病的长尾分布以及外部验证场景中均表现出色。
-
模型能够生成详细的诊断理由,提高了医生的信任度,并使模型的输出更加透明。
- 与其他模型的比较
-
在MedDX-Test数据集上,MedFound(不使用SC)相比其他LLMs的平均性能,在微准确率上提高了14.4%。
-
在MedDX-OOD和MedDX-Rare数据集上,MedFound也分别实现了11.9%和11.1%的微准确率提升。
综上所述,MedFound模型在疾病诊断辅助方面取得了显著的研究成果。其高效的预训练与微调策略、出色的诊断性能、与医生的对比表现以及多场景下的优异表现,都证明了该模型在医学诊断领域的巨大潜力。
04.研究意义
- 推动医学AI发展:
- 文章的发表标志着在医学领域,特别是疾病诊断辅助方面,大型语言模型(LLM)的应用取得了重要进展。MedFound模型的提出和验证为医学AI的发展提供了新的思路和方法。
- 提高诊断准确性:
- 通过实验数据表明,MedFound模型在多个疾病诊断任务中表现出色,其准确性甚至超过了部分专业医生。这对于提高疾病诊断的准确性、减少误诊和漏诊具有重要意义。
- 引领医学AI研究新方向:
- 文章中提出的基于自我引导策略的链式思考(COT)微调方法、统一偏好对齐框架等创新方法,为医学AI的研究提供了新的方向。这些方法的应用可以进一步提升医学AI的性能和实用性。
- 推动跨学科合作:
- MedFound模型的研发涉及多个学科的知识和技术,包括自然语言处理、深度学习、医学等。因此,该文章的发表有助于推动跨学科合作,促进相关领域的发展和进步。
- 提升医疗智能化水平:
- 随着MedFound等医学AI模型的不断发展和完善,医疗智能化水平将不断提升。这将为患者提供更加便捷、高效的医疗服务,同时也有助于提升医疗质量和安全性。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。