万艳丽
万艳丽,博士、研究员、硕士生导师。主要研究方向为卫生信息管理、医学人工智能、医学知识组织、卫生决策支持等。近年来致力于探索利用人工智能等新技术解决医疗健康领域复杂问题,推进新技术在公共卫生应急管理、临床决策、健康管理等方面的深度融合及智慧应用。承担国家自然科学基金青年和面上项目,国家社会科学基金重大子课题、重点项目和一般项目,中国医学科学院创新工程项目,以及世界卫生组织、国家卫生健康委员会、地方卫生健康委员会等部门委托课题共计40余项,其中多个国家级项目结题时被评为优秀。发表学术论文40余篇,其中SCI检索论文20余篇,参编专著5部,授权专利5项。
摘要 随着深度学习和自然语言处理技术的进步,医学大模型正处于快速发展阶段,它为医学研究和临床实践带来了前所未有的机遇,同时也伴随着一系列挑战。本文通过对现有文献的综合分析,总结近年来医学大模型的研究现状,分析大模型技术特点,探讨其在不同医疗场景中的应用,并分析面临的挑战及未来发展趋势,旨在为科研人员、临床医生、医疗政策制定者以及相关行业的技术开发者掌握最新的技术发展动态、理解潜在应用价值提供前沿参考。
关键词 医学大模型 深度学习 临床应用
随着人工智能的飞速发展,深度学习和自然语言处理技术的进步,医学领域迎来了前所未有的机遇。尤其大模型作为一种新兴人工智能技术,在医疗健康领域展现出了巨大的应用潜力。医学大模型通过对海量医学文献、临床记录以及生物医学数据的学习,能够在临床诊疗、健康管理、药物研发等多个方面提供有力支持。此外,还能帮助医生和研究人员提高工作效率,优化医疗资源分配,从而改善患者的医疗体验和健康结果。本文通过对现有文献的综合分析,旨在总结近年来医学大模型的研究现状,分析大模型技术特点,探讨其在不同医疗场景中的应用,并分析面临的挑战及未来发展趋势。
一、医学大模型研究现状
近年来,国内外研究者在医学大模型领域取得了重要突破,这些成果不仅展示了人工智能技术在医疗健康领域的巨大潜力,也反映了深度学习和自然语言处理技术在解决医疗领域复杂问题上的重要作用。
国内已经开展了一系列基于大语言模型的应用研究,旨在提升医疗服务的质量和效率。本草大模型开源了经过中文医学指令精调和指令微调的大语言模型集,基于医学知识图谱以及医学文献,结合ChatGPT API (chat generative pre-trained transformer application programming interface) 构建了中文医学指令微调数据集,并对各种基模型进行了指令微调,提高了基模型在医疗领域的问答效果。华佗大语言模型,通过整合ChatGPT的精炼数据和真实临床数据,并采用强化学习的方法,提升了模型在医疗领域的性能。神农大模型作为首个中医药大模型,以Llama为基座,以中医药知识图谱为基础,采用实体为中心的指令方法和Lora (low-rank adaptation) 微调技术,提升了LLM (large language model) 在中医药方面的知识与回答医学咨询的能力。扁鹊大模型,基于健康的主动性、预防性、精确性、个性化、共建共享、自律性六大特征,经过千万规模中文健康对话数据指令微调,加速大模型在慢性病、心理咨询等领域的研究与应用。孙思邈大模型融合医疗文献及教材、多科室诊断数据、医疗问诊对话、医学知识问答、病历分析等数据,基于GPT4自动构建,致力于提供安全、可靠、普惠的中医药大模型。张仲景大模型是首个实现了预训练、有监督微调和强化学习与人类反馈完整训练流程的中文医学大模型,在某些对话场景中接近专业医生的水平。中国医学科学院医学信息研究所与清华大学OpenDE团队联合自主研发的医学知识大语言模型AiMed,具有强大的语义理解和信息检索能力,为医学科研人员提供知识问答、文献检索和论文阅读等智能服务。中国医学科学院基础医学研究所将整体医疗场景拆分为特定的“小世界”,建立了全景数据采集-知识精炼-算法增强的“小世界增强”技术框架,研发了兼具高专业度和共情支持的导诊大模型,成功推向临床试验,获得高级别的循证医学支持证据。
国际上,BioMedLM是由斯坦福大学和DataBricks团队合作开发的生物医学文本预训练语言模型,提升对生物医学领域特定术语和概念的理解,在实体识别、关系抽取、文献检索和问答系统中表现出色。BioGPT是微软研究院开发的一种生成式预训练Transformer模型,专注于生物医学文本的生成和理解,适用于医疗问答、文献摘要等任务,在生成流畅的生物医学术语描述方面具有优势。Med-PaLM是Google 提出的一个基于PaLM且经过微调的大规模医疗模型用于医学问答和诊断支持。该模型在医疗咨询和问答任务中表现出色,能够以接近医生水平的方式回答复杂的医学问题。对于具有大量未标记文本的特定领域,如生物医学,从头开始预训练语言模型比持续预训练通用领域语言模型效果显著,PubMedBERT提出了生物医学语言理解与推理基准用于特定领域的预训练。GatorTron是由佛罗里达大学开发的电子病历大数据模型,使用89亿个参数和来自电子健康记录的>900亿字的文本改进5个临床自然语言处理任务,包括医疗问题回答和医疗关系提取。ChatDoctor使用20.5万条医患对话数据集对 LLM 进行微调, 生成的模型可以理解患者需求, 提供合理建议并在各种医疗相关领域提供帮助。Veen等探讨了经过参数高效微调的大语言模型在临床文本摘要任务中优于医疗专家,并且有潜力通过减轻文档负担来改善临床工作流程。国内外相关医学大语言模型详见表1。典型医学大模型开源数据集详见表2,通用大模型指令微调数据集详见表3。
表1 国内外医学大语言模型
表2 医学大模型开源数据集
各大研究机构在不断推动大语言模型相关代码库的建设与开源,代表性的代码库资源有Github、Huggingface、魔搭社区、DeepSpeed、Megatron-LM等,详见表4。
表3 通用大模型指令微调数据集
M. 百万;k. 千
表4 大模型代码库资源
二、医学大模型技术及特色
当前主流的大语言模型都是基于Transformer模型设计,Transformer是由多层多头注意力模块构成的神经网络,主要包括编码器和解码器。大模型优化技术包括指令微调策略和参数高效的模型微调。通过使用人工设计的指令数据集对大规模语言模型进行额外训练的过程被称为指令微调,其目标是提升或激活这些模型的功能。研究显示,无论是小型还是大型的语言模型(参数量范围从77M到540B),通过指令微调都能获得性能上的提升。而且,这种提升随着模型参数规模的增加而变得更加显著。参数高效微调专注于最小化需要训练的模型参数数量,同时确保经过微调的模型性能能够达到与全量微调相当的水平。大规模数据的预训练可以提取丰富的语言知识和语义信息。在预训练阶段,模型是自监督学习方式,利用自注意力机制捕捉文本信息,理解语言的规律。在微调阶段,通过有监督学习的方式,模型在特定的数据集上进行训练,提高适应不同任务的能力。
在大语言模型的背景下,指令微调成为将大语言模型快速适配垂直领域的解决方案,然而医学领域,对于知识正确性要求较高,指令微调后的模型生成内容还存在改进空间。医学大模型的核心技术是提出知识微调方法,令大语言模型通过调用知识函数的方法获得输入样例相关的医学知识,用以辅助模型输出。知识微调分为两个阶段,分别是训练阶段灌入知识和推理阶段知识增强。通过引入医学领域知识,提升模型输出内容中的知识精确性,详见图1。
图1 医学大模型知识微调示意图
医学领域数据量、算力相对较小,医疗大模型需具备高准确性、可解释性、强专业性,同时在保护隐私的前提下有效利用数据,确保其在临床应用中的安全性与有效性:(1)数据质量要求高。在医学领域,数据的准确性和可靠性至关重要。高质量的数据能够帮助模型准确地预测和诊断病情,减少误诊和漏诊的可能性,这对医学模型的可信度和临床应用价值至关重要。(2)医学可解释性需求强。医生不仅依赖模型的诊断建议,更需要理解模型得出结论的依据,以确保与临床知识相符,增强模型在诊疗中的可信度。医疗大模型通过透明化其决策过程,有助于减少误诊,优化个性化治疗方案。(3)医学专业知识强。医学领域的大模型不仅需要理解自然语言,还需要深入理解医学专业知识。轻量级模型通常集成了医学知识图谱或其他医学领域的专业知识库,以确保模型能够准确解释医学术语、病理机制和诊疗过程。知识密集型的特点使得医学领域的模型能够在专业领域中表现出色,为医生提供有力的辅助决策支持。(4)包含大量病患隐私。医学数据往往包含病患的敏感信息和隐私,在部署模型时,需要特别关注数据的安全性和隐私保护。轻量级大模型可以更容易地在本地或私有化环境中部署,避免了数据外泄的风险。这种本地化的部署方式确保了数据的可控性,使得医疗机构能够遵循严格的隐私法规。
三、医学大模型的应用
大模型在医学辅助决策中有多种应用场景,部分应用案例详见图2。
图2 医学大模型应用场景
1.智能问诊:用户通过系统输入主诉症状,经自然语言理解模块进行处理,解析用户输入的文本并提取关键信息。大模型基于大量的医疗知识和数据进行辅助诊断推理,并将诊断结果反馈给系统。自然语言生成模块转化为易于理解和接受的语言形式响应患者的主诉症状,提供个性化的诊断建议。
2.诊断报告自动生成:医学大模型通过提取电子病历中的关键词,规范化医案,以及对医学影像资料的自动解读,最终生成诊断报告。这一过程简化了医生的工作流程,提高了诊断的准确性和效率。
3.临床辅助治疗:在临床辅助决策中,大模型可以通过住院筛查与检查、患者主诉症状、大模型分析推理以及辅助评估病情治疗等,为医生提供全面的支持。大模型能够帮助医生快速筛查出需要重点关注的病例,也能通过分析患者的症状和以往病史,为医生提供有价值的参考信息。还能通过分析大量的医学数据和文献,为医生提供专业的分析推理,更好地了解病情的发展趋势和可能的治疗方法。此外,针对患者在生理条件、遗传背景及对药物反应等方面的个体差异,促进精准医疗。大模型能够根据患者的具体情况,结合最新的临床研究成果,为医生提供个性化的治疗建议,包括药物选择、剂量调整等方面,有助于提高治疗效果并减少不良反应。
4.智能健康管理:通过医学大模型可以实现智能化疾病风险管理、生活方式指导、慢病管理和电子健康记录等功能,促进医疗效率的提升,为患者带来了更高质量的生活体验,实现了健康管理的智能化与个性化。通过对患者历史记录、基因组信息以及生活习惯等多维度数据的综合分析,预测个体患病的风险,进而指导预防措施的制定,如综合分析血糖水平、饮食习惯等因素的变化趋势,预测糖尿病发生的风险,采取相应的干预措施以降低疾病发生率。利用大模型构建智能健康管理咨询系统,为患者提供健康知识普及、症状自测等功能,增强公众自我保健意识。通过定期推送定制化的健康管理计划,促进慢性病患者持续追踪自身状况,及时调整治疗方案。
5.智能药物研发:医学大模型在智能药物研发中通过深度学习处理海量生物数据,显著加速药物靶点发现和分子设计。能够高效预测分子行为,优化药物特性,并识别潜在不良反应,为精准医疗和个性化治疗提供新的可能性,从而加快药物研发流程。通过模拟分子结构、预测化合物活性等方式,加速候选药物的筛选过程,缩短新药从实验室到市场的路径,不仅能够降低新药研发成本,还有助于更快地将有效药物带给患者。
6.智能医学教育:大模型能够提供丰富的实例学习资源,帮助学生理解和掌握专业知识。通过场景生成和个性化化学习的方式,让学生更好地模拟实际操作,提高实践技能。
四、医学大模型挑战及展望
1. 挑战:医学大模型在实际应用中,面临着多模态融合、可解释性、数据质量、数据偏见等问题:(1)数据复杂多样。医学数据包括电子病历、CT、磁共振、检查记录等,每种类型的数据包含多个特征,如电子病历中的临床病史、就诊记录、年龄、诊断指标等。结构化数据、半结构化数据、非结构化数据都会有所涉及。大模型需要先理解数据及数据结构,才能做出较好的模型预测。(2)可解释性需求。大型模型在医疗领域的应用日益广泛,但这些模型往往被视为“黑箱”,其复杂的内部运作机制难以被直观理解。在医疗决策过程中,模型的可解释性尤其关键,不仅能增强医生与患者之间的信任,还能确保临床决策符合现行的指南和标准。因此,开发出既能提供准确预测又能清晰解释决策依据的方法是必要的。(3)医学数据采集过程中可能出现不完整、不一致等问题。模型需要通过缺失值补全、噪声过滤等技术,提升数据质量。此外,专家知识融合。在电子病历生成和医学决策中,调用大语言模型时需要整合大量的临床知识,这些知识在临床实践中至关重要。近年来,检索增强生成器(retrieval augumented generator,RAG)和Agent等架构被提出,旨在更好地将专家知识融入模型。然而,这些架构与医疗场景的深度融合仍然不足,尤其是在如何有效地将复杂的临床知识与大语言模型结合方面。(4)数据偏见往往源于患者群体的分布不均衡,如种族、性别、年龄、地域差异等。如某些族裔的患者可能由于数据不足,模型在预测其病情时的误差较大,因此需研究探索数据集平衡或公平性算法,确保模型对不同群体的一致性表现,保证决策的公正性。
2. 展望:医学大模型正聚焦于多模态融合技术、智能体应用等研究。医学大模型通过整合和理解多种医学数据类型,如影像、基因组信息、临床文本、患者行为数据等,使得模型能够进行更全面的分析,进而提供更加准确和细致的诊断和治疗建议。比如通过将影像数据与基因组信息相结合,大模型可以更早期地发现疾病风险,并为患者定制特异性治疗方案等。基于大模型的智能体通过整合感知、决策、行动等多个环节,在自主能力、决策能力、协作交互等方面展现出优势。通过模拟专家级别的医学决策,可以实时分析患者的症状、实验室结果、影像数据等,生成个性化的治疗方案,从而大幅度减轻医生的工作负担。随着大模型与机器人技术、物联网设备的结合,医学大模型智能体有望实现实时监测和动态调整治疗方案,为患者提供更及时和个性化的护理服务。这种高度智能化的医疗模式将大大提高医疗服务的效率和准确性,尤其是在资源有限或医疗条件不足的地区将显得尤为重要。另外,由于医疗大模型需要大量的算力支持,而实际场景在算力部署方面往往存在短板,因此轻量化、本地化部署的大模型也成为重要发展方向,将有助于降低大模型的使用成本。
综上所述,医学大模型的应用将极大地提升医疗服务的质量与效率,为实现更加精准、高效、人性化的医疗健康体系奠定坚实基础。当然,实现这一过程中还需要医学和人工智能技术领域的专家共同探索应对数据隐私保护、伦理道德考量、算法透明与可解释性、技术瓶颈等诸多挑战,确保技术发展的同时兼顾社会福祉。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。