医疗大模型综述:从通用模型到医疗专业应用的演变

01 简介

大语言模型(LLMs)为人工智能技术在医疗领域作出重大贡献创造了前所未有的机遇,对医疗大语言模型的探索涵盖了从辅助临床医生做出更准确的决策,到提升患者护理质量与治疗效果,包括增强医学知识理解、提高诊断准确性、提供个性化治疗建议等多个方面。

目前对医疗大语言模型(Med-LLMs)的探索,主要集中在识别患者特定因素,以便为临床决策提供有效的支持,并给出治疗建议。这些研究可分为以下几个关键领域:即医学语料库,医疗专用算法,临床作用,伦理、隐私与可解释性。

本文介绍了医疗大语言模型(Med-LLMs)的最新进展,包括其背景、关键发现和主流技术,特别是从通用模型到医疗专业应用的演变。

医学大语言模型(Med-LLMs)概述

02 历史背景与基础训练技术

  • 模型架构:

Transformer架构,核心组件包括编码器-解码器结构、自注意力机制、位置编码、残差连接和层归一化。

  • 训练技术:

1)预训练:指模型在针对特定任务进行微调之前先在大规模通用文本数据集上进行训练,从根本上大幅提升模型性能,包含下一词预测(NWP、掩码语言建模(MLM)、替换词检测(RTD)、下一句预测(NSP)、句子顺序预测(SOP)等任务。

2)微调:借助规模较小的专业数据集,让预训练模型适配特定的任务或领域,这一过程有助于提升模型在相关任务上的性能。常用的微调技术包括有监督微调(SFT)、指令微调(IFT)、参数高效微调(PEFT)。

3)基于人类反馈的强化学习:侧重于收集人类对模型生成输出的反馈,以指导模型进一步优化,使其执行的任务更符合人类期望和道德标准。

4)上下文学习:也被称作少样本学习,通过在提示中给出示例让模型具备对新任务进行泛化和适应的能力,而无需在特定训练数据集上进行额外微调。

03 从通用大语言模型到医疗专用大语言模型

  • 医学领域的自然语言处理任务:

包括医学信息提取(Med-IE)、问答(Med-QA)、自然语言推理(Med-NLI)以及医学文本生成(Med-Gen)。这些应用属于基础的自然语言处理任务,但由于医学领域的复杂性,极具挑战性。

基础医疗自然语言处理任务

  • 医学大语言模型相关数据集:

医学自然语言处理数据集的统计信息与资源

  • 医学大语言模型的评估:

1)定量评估:准确率、F1分数和困惑度等

2)定性评估:人工评估、错误分析、案例研究、用户反馈、主题分析、审美评判、伦理与社会影响评估

自然语言处理任务常用评估指标

3)自动评估方法:

MedBench:

MedBench是一个针对医学领域的综合性评估基准,它包含40,041个有关医学各个分支的问题,这些问题源自真实的考试和临床报告。其主要组成部分包括:中国医师资格考试、住院医师规范化培训考试、主治医师资格考试,以及涵盖检查、诊断和治疗的真实临床病例。

AutoEval:

AutoEval是一种自动评估框架,用于评估大语言模型(LLMs)的实际能力,即作为虚拟医生进行多轮对话的能力。咨询任务的临床需求要求大语言模型做到:①考虑自身未知的因素;②询问患者缺失的医疗因素;③生成诊断和治疗结果。

LLM-Mini-CEX:

基于MiniCEX建立了一种名为LLM特定Mini-CEX的评估标准,以有效评估大语言模型的临床能力。基于此开发了一个患者模拟器,用于模拟与大语言模型的对话,在此过程中利用ChatGPT自动评估诊断对话。

MedGPTEval:

MedGPTEval包含中文医学数据集和公共基准。其评估指标是在全面文献综述的基础上设计的,涵盖医学专业能力、社会综合能力、上下文理解能力以及计算稳健性,共16项详细指标。

LLM-人工评估:

大语言模型(LLMs)即便仅在特定任务指令上进行训练,在全新任务上也展现出卓越性能。针对两项自然语言处理任务——对抗性攻击和开放式故事生成,同时开展了人工评估和大语言模型评估。实验表明,大语言模型评估与人类水平的评估结果具有一致性。此外,相较于不同的任务指令和生成采样算法,大语言模型评估能给出更稳定的结果。

RJUA-SPs:

RJUA-SPs评估方法包含三个基本要素:①度量标准。利用专业的临床实践路径来界定医生应具备的临床能力,这被称为大语言模型特定临床路径(LCP)。②数据。运用标准化病人(SPs)来指导数据收集,旨在很好地维持评估的完整性。③算法。构建一个多智能体框架,以模拟标准化病人与医生智能体之间的交互环境。专门设计了一种检索增强算法,用于衡量大语言模型充当的“医生”的行为是否与LCP一致。

  • 将大语言模型打造成医生

将通用大语言模型(LLM)转变为专业的医学大语言模型,就如同训练它成为一名“医生”,整个过程包含多步方法:提示工程、医学特定微调以及检索增强生成(RAG)。

1)提示工程:这一步骤涉及精心设计和优化提示,以便有效地引导模型生成医学上准确且符合上下文的输出。该过程始于开发高度特定的提示,其中包括与医学领域紧密契合的详细指令、示例和约束条件。

2)医学特定微调:微调始于选择一个高质量的数据集,该数据集涵盖广泛的医学知识,包括临床记录、教科书、研究文章、患者病历以及其他相关材料。数据应涵盖医学的各个方面,确保数据集中的多样性有助于模型在不同的医学场景和专业领域中更好地进行泛化。此外,微调过程应包含持续学习机制,使大语言模型能够跟上最新的医学研究和指南。这可以通过定期使用新数据进行再训练来实现,或者通过实施在线学习技术,使模型能够从新输入中学习,同时不会忘记先前学到的信息。

3)医学特定检索增强生成(RAG):实施医学RAG需要整合强大的检索机制,使模型能够获取并利用最新的、基于证据的医学信息。RAG通过将大语言模型的生成能力与从可信医学数据库和文献中检索到的精确且上下文相关的数据相结合,提升大语言模型的能力。

将大语言模型打造成医生

通过模拟临床场景进行严格测试,并由医学专业人员进行同行评审,这有助于验证模型在现实应用中的有效性和可靠性。通过这些方法,通用大语言模型能够有效地转型,成为辅助医疗服务提供者、改善患者治疗效果的有力工具。

  • 特定医学大语言模型

医疗大语言模型的发展历程(2019-2024)

医疗领域现有的大语言模型,如Med-PALM、Codex-Med和MedAlpaca,凭借其独特的设计目标、架构和功能,为医疗保健的进步做出了贡献,这些模型共同推动了医学大语言模型(Med-LLMs)的发展,并加强了其在医疗保健中的应用,为未来的医疗实践和研究提供了有力支持。以下为部分大模型简要介绍:

BioBERT:

BioBERT是BERT的一个变体,专门在生物医学文本上进行训练。它旨在比通用模型更有效地理解和处理医学与生物信息。BioBERT在生物医学领域的命名实体识别、关系提取和文本分类等任务中特别有用。

PubMedBERT:

PubMedBERT是一款基于BERT的模型,在PubMed摘要上进行训练。对于涉及生物医学文献的任务,如文献综述、信息检索及总结,它尤为有效。PubMedBERT能助力研究人员快速筛选大量科学论文,以找到相关信息。

ClinicalT5:

ClinicalT5是基于T5架构的模型,利用临床数据进行训练。它旨在处理临床文本生成与总结任务。ClinicalT5能够生成详细的临床报告、归纳患者病历,并辅助临床决策。

GatorTron:

GatorTron是一个为多种任务开发的大语言模型,其中包括医疗领域的任务。它以处理复杂医学文本并生成高质量输出的能力而闻名。GatorTron可用于诸如生成详细医学报告和总结临床数据等任务。

Codex-Med:

Codex-Med是Codex模型的一个变体,专门为医疗应用场景定制。它能够辅助生成详细的医学报告以及总结临床数据。

Galactica:

Galactica是一个大型语言模型,旨在处理广泛的任务,其中包括医疗领域的任务。它在生成和理解复杂的科学及医学文本方面尤为有效。Galactica可用于生物医学领域的文献综述、信息检索和总结。

Med-PaLM:

Med-PaLM是一款专门为医疗应用设计的语言模型。它基于大量医学数据进行训练,可用于医学文本生成、信息提取等任务。Med-PaLM能够生成详细的医学报告,并辅助临床决策。

GPT-4-Med:

GPT-4-Med是GPT-4模型的一个变体,针对医疗应用进行了优化。它旨在处理复杂的医学文本并生成高质量的医学内容。GPT-4-Med可用于生成详细的医学报告、总结临床数据以及辅助临床决策。

ChatDoctor:

ChatDoctor是一款旨在辅助医疗咨询的对话式人工智能模型。它能够回答医疗问题,并根据症状提供初步建议。ChatDoctor在患者分诊以及正式医疗咨询前提供初步指引方面很有帮助。

本草(BenTsao):

“本草”是一款专为医疗应用打造的语言模型。它经过训练,可处理诸如医学文本生成与信息检索等任务。“本草”能够生成详细的医学报告,并辅助临床决策。

PMC-LLaMA:

PMC-LLaMA是基于PubMedCentral数据训练的语言模型。它旨在处理与生物医学文献相关的任务,如文本生成和信息检索。PMC-LLaMA能帮助研究人员快速筛选大量科学论文,以找到相关信息。

扁鹊(BianQue):

“扁鹊”是一款为医疗应用设计的语言模型。它经过训练,能够处理医学文本生成、信息检索等任务。“扁鹊”可以生成详细的医学报告,并辅助临床决策。

Med-PaLM2:

Med-PaLM2是Med-PaLM的升级版,旨在提升其在医疗应用中的表现。它基于更大规模的医学数据集进行训练,应用于医学文本生成、信息提取等任务。Med-PaLM2能够生成更准确、详尽的医学报告。

GatorTronGPT:

GatorTronGPT是GatorTron专门针对医疗应用设计的一个变体。它用于医学文本生成、信息检索等任务。GatorTronGPT能够生成详细的医学报告,并辅助临床决策。

华佗GPT(HuatuoGPT):

华佗GPT是一款专为医疗应用设计的语言模型。它经过训练,可处理医学文本生成、信息检索等任务。华佗GPT能够生成详细的医学报告,并辅助临床决策。

Med-Flamingo:

Med-Flamingo是一款专为医疗应用打造的语言模型。它经训练可处理诸如医学文本生成与信息检索之类的任务。Med-Flamingo能够生成详细的医学报告,并辅助临床决策。

神农中医大语言模型(ShenNong-TCM-LLM):

神农中医大语言模型专注于传统中医(TCM)领域。该模型基于大量中医文本进行训练,这些文本涵盖古代经典、现代研究论文以及临床实践指南。神农中医大语言模型助力中医从业者依据中医理论诊断和治疗患者,辅助中药方剂的制定,同时在中医知识的普及教育方面,对从业者和患者都有所帮助。

MedicalGPT:

MedicalGPT是一款通用型医疗语言模型,旨在支持各类与医疗保健相关的任务。它基于多种数据集进行训练,其中包含临床记录、医学教科书以及公共卫生资源等。MedicalGPT能够生成详细的医学报告,辅助临床决策,并为患者咨询提供信息。其功能的多样性,使其适用于医疗体系中的不同角色。

岐珍GPT(QiZhenGPT):

岐珍GPT专注于中医诊断与治疗方案规划。它基于涵盖中医案例研究、诊断标准和治疗方法的综合数据集进行训练。岐珍GPT助力中医从业者做出准确诊断,推荐适宜的治疗方案,并向患者普及预防保健措施。

Med-ChatGLM:

Med-ChatGLM将对话能力与深厚的医学知识相结合。它旨在就健康问题展开有意义的对话,提供个性化建议,并帮助用户管理慢性疾病。Med-ChatGLM还能协助医疗服务提供者监测患者进展,并根据持续反馈调整治疗方案。

华佗GPT-II:

华佗GPT-II是华佗GPT的进阶版本,针对医疗应用场景的性能提升进行了优化。它利用更大的训练数据集和优化后的算法,强化了生成详细医学报告、总结临床数据以及辅助临床决策的能力。华佗GPT-II的这些改进,使其成为寻求精确可靠人工智能支持的医疗专业人员的得力工具。

太乙大语言模型(Taiyi-LLM):

太乙大语言模型是一款专注于传统中医领域的语言模型。它基于中医历史文献、当代研究成果以及临床实践数据进行训练。太乙大语言模型可协助中医从业者开展诊疗工作、制定中药方剂,并向患者传授中医理论与实践知识。其在中医领域的专业性,使其成为融合传统与现代医学方法的宝贵资源。

仲景:

“仲景”是一款聚焦传统中医的语言模型,以著名医家张仲景命名。它基于丰富的中医文献和临床数据语料库进行训练。“仲景”辅助中医从业者进行准确诊断、推荐有效治疗方案,并向患者传授中医原理。它在传统中医智慧与现代医疗实践之间搭建起一座桥梁。

Med-Gemini:

Med-Gemini是一款双语模型,能够处理英文和中文的医学文本。它基于医学文献、临床记录和患者病历的双语语料库进行训练。Med-Gemini促进跨文化医学交流,为双语医疗环境提供支持,并助力准确翻译医学文档。其双语能力提升了它在国际医疗场景中的实用性。

04 改进医疗大语言模型的算法

  • 医学大语言模型的临床推理

在大语言模型(LLMs)的范畴内,临床推理是指这些模型模仿并辅助完成医疗诊断、治疗方案规划以及患者管理中所涉及的复杂思维过程的能力,类似于人类临床医生的推理方式。要让大语言模型具备先进的临床推理能力,需使其理解医学知识,拥有全面分析患者数据、考虑鉴别诊断,并依据现有最佳证据做出决策的能力。

  • 具体推理技术:

1)上下文填充(ICP):上下文填充包含四个主要步骤,以在临床环境中提升大语言模型(LLM)的推理能力:①从临床上下文和推理目标中提取医学实体;②从知识图谱(KG)中推断相关医学实体;③将获取的知识种子与提示信息连接起来;④生成推理结果以及临床解释。

2)联合模型学习与检索(JMLR):JMLR在微调阶段对大语言模型和信息检索模型进行联合训练。它制定了一种同步训练机制,用于检索临床指南并利用医学知识,显著提升了大语言模型的临床推理能力,同时降低了对计算资源的要求。

  • 医学大语言模型的知识图谱

尽管大语言模型(LLMs)能力出色,但在知识密集型任务方面常面临挑战,比如可能生成虚假内容,以及缺乏特定领域知识。作为一种颇具潜力的解决方案,知识图谱(KGs)以三元组形式存储海量知识,可通过提供精确且必要的知识,提升大语言模型在任务中的表现。

  • 特定的知识图谱增强型医学大语言模型:

通过为大语言模型提供丰富、结构化的医学知识库,其在医疗保健、医学及生物医学研究相关任务中的表现显著提升。以下是知识图谱增强型大语言模型系统的一些最新应用。

DR.KNOWS:

DR.KNOWS是一种在临床诊断标准指导下的创新方法,旨在提升大语言模型生成诊断结果的能力。该方法结合了医学知识图谱以及美国国立医学图书馆的统一医学语言系统(UMLS)的运用。DR.KNOWS充当一种解释和总结辅助工具,利用医学知识图谱梳理复杂的医学概念。它建立了一条清晰、合理的诊断路径,便于运用具备分析过程透明性的人工智能增强决策支持机制。因此,这种整合在提高人工智能诊断准确性的同时,确保诊断结果易于理解且可追溯。

KG-Rank:

为解决医学查询中事实不一致和固有偏差的问题,KG-Rank框架作为对大语言模型的一种改进被引入。该框架采用了一种结合排序与重排序策略增强后的医学知识图谱,专门用于提高医学自由文本问答的准确性。具体而言,对于一个特定问题,首先从医学知识图谱中检索三元组以收集事实信息。随后,应用排序算法优化初始检索结果,将结果以有助于生成更精确回复的方式进行排序。

MedKgConv:

MedKgConv将多种预训练语言模型与统一医学语言系统(UMLS)相结合,基于MedDialog-EN数据集生成更像人类对话的内容。UMLS包含各种与医学相关的信息,如疾病、症状和实验室检查等。为运用图谱中的语义信息,通过MedFact注意力机制读取每个图谱中的三元组,对检索到的知识图谱(KG)执行推理步骤。然后,利用策略网络将相关实体有效地融入回复文本中。

芝诺中医(ChiMed):

构建了中医数据集用于训练麒麟医疗(Qilin-med)模型,该数据集包含医学问答、纯文本、知识图谱和对话。知识图谱子集的数据来源于中国生物医学文献数据库知识图谱(CPubMedKG)、39健康网知识图谱(39Health-KG)和寻医问药网知识图谱(Xywy-KG)。其中纳入了多种医学信息,如病因、症状和推荐药物等,以确保知识图谱的全面性。

DISC-MedLLM:

为构建高质量的有监督微调(SFT)数据集,DISC-MedLLM[46]提出一种由医学知识图谱驱动的样本构建方法,以生成准确且真实的医学回复。该方法采用面向科室的策略,根据患者查询从医学知识图谱中选取三元组。对于每个三元组,利用GPT-3.5以少样本学习的方式生成问答对。

  • 基于大语言模型的医疗智能体

受人工智能智能体前沿发展的启发,大语言模型(LLMs)不再仅仅用于生成文本,而是充当自主智能体系统的核心组件。这种范式标志着人工智能能力的重大飞跃,从被动的问答系统转向能够主动执行复杂任务的多功能智能体。

CT智能体:

受先进的大语言模型和多智能体系统的启发,CT智能体(临床智能体系统)作为一种综合性方法被引入,以提高临床任务的可及性和实用性。CT智能体利用GPT-4、多智能体架构、由易到难(LEAST-TO-MOST)以及推理与行动(ReAct)推理技术,能够提升在临床场景中管理整个临床流程的表现。

AutoGen:

AutoGen是一个开源且可定制的框架,用于构建高效的应用程序,涵盖数学、编程、问答以及在线决策等领域。基于AutoGen,用户能够便捷地设计多智能体应用程序,通过智能体之间的交互来完成最终任务。AutoGen可通过大语言模型、人工输入和工具的组合,以多种模式运行。

ArgMed智能体:

用于提供可解释的临床决策推理。ArgMed智能体能够通过自主生成解释,模拟临床推理过程。其核心是基于一种推理机制进行自我论证迭代,以对认知过程进行建模。随后,将一个增强过程视为有向图,以表示冲突关系。然后,一个符号求解器可以为决策确定合理且连贯的论证。

  • 医学大语言模型的检索增强生成技术

检索增强生成(RAG)是一种机器学习技术,它融合了基于检索的模型和生成式模型的优势,以提升生成文本的质量和多样性。这种方法在自然语言处理任务中受到了广泛关注,尤其是在对话式人工智能、问答系统和文本摘要等领域。特定的检索增强生成算法通过将外部知识与生成模型相结合,RAG能够提供更准确、最新且与上下文相关的信息。

Clinfo.ai:

Clinfo.ai是一款开源网络应用程序,它基于动态检索到的科学文献来回答临床问题。信息检索和摘要任务被用于评估检索增强型大语言模型系统。

年鉴(Almanac):

不准确和有害的生成内容确实限制了大语言模型在临床中的应用。为解决这一问题,“年鉴”具备从经过筛选的医疗资源中检索临床指南和治疗建议的能力。一组临床医生和医疗从业者对“年鉴”进行评估,将“年鉴”给出的回复与标准大语言模型(如ChatGPT-4)的回复进行对比。

BiomedRAG:

BiomedRAG采用一种直接的检索增强生成(RAG)方法,即将检索到的文档直接输入大语言模型,而不是利用交叉注意力机制对检索到的文本进行编码。BiomedRAG能够有效降低检索文档中噪声信息的负面影响,尤其适用于噪声密集型任务。该研究证明了在生物医学领域,大语言模型作为检索模型的监督信号是有效的。

Self-BioRAG:

为提升检索增强生成(RAG)在特定领域问题上的通用性,Self-BioRAG框架被引入生物医学文本领域,该框架专注于解释生成、特定领域文档检索以及对生成回复进行自我反思。研究人员利用8.4万个生物医学指令集对Self-BioRAG进行训练。研究表明,特定领域组件,如检索器、领域相关文档语料库和指令集,对于遵循领域相关指令而言必不可少。

ECG-RAG:

为了研究大语言模型在心电图(ECG)诊断中的应用,一种零样本检索增强诊断技术[55]被设计出来,该技术在利用内在编码知识的同时,融入专家知识以精心设计提示。研究人员构建了特定领域知识数据集,其中包含心脏症状和睡眠呼吸暂停诊断相关内容。

ChatENT:

头颈部外科(OHNS)相关数据从开放的互联网资源收集而来。检索增强语言建模(RALM)用于在预训练时调用这些信息,之后将其整合到ChatGPT中,创建一个专门针对OHNS的知识问答平台,名为ChatENT。

MIRAGE:

医学信息检索增强生成评估(MIRAGE)旨在评估医学领域的检索增强生成(RAG)系统,该评估包含来自五个医学问答数据集的7663个问题。MIRAGE能够提升多种大语言模型的性能,表现优于思维链提示、GPT-3.5、Mixtral以及GPT-4。

MedicineQA:

由于缺乏特定领域知识,将大语言模型应用于医疗场景颇具挑战。为此,一种名为MedicineQA的多轮对话基准被提出,用于模拟现实世界中的医疗场景,要求大语言模型依据从医学数据集检索到的证据进行作答。MedicineQA包含300个多轮问答对。随后,一种“提炼-检索-读取”框架被设计出来,以取代之前的“检索-然后读取”模式,该框架利用工具调用机制来构建搜索查询。

  • 医学大语言模型的人类对齐

特定对齐算法在医学大语言模型中实现与人类期望的对齐至关重要,因为这直接影响患者安全、对技术的信任,以及医疗服务的整体有效性。以下是一些在医学大语言模型的开发和部署过程中可采用的人类对齐算法。

1)安全对齐:MedSafetyBench总结了医学人工智能系统的医疗安全性和对齐性的定义。然后以有害医学问题为指标构建了一个评估数据集,用于评估医学大语言模型在一般安全性和医疗安全性及对齐性方面的表现。

2)SELF-ALIGN(自我对齐):由于收集人类监督数据成本高昂且存在质量问题(如可靠性、多样性、自洽性以及不良偏差等),因此提出了SELF-ALIGN方法,将原则驱动推理与大语言模型的生成能力相结合,旨在以最少的人类监督实现自我对齐。SELF-ALIGN包含四个步骤:①合成提示生成,以提高提示的多样性;②依据人类编写的原则生成回复;③高质量的自我对齐微调;④优化步骤,以避免简单或间接的回复。

3)EGR:EGR(扩展-猜测-细化)对齐策略,这是一种在参数和数据利用上高效的解决方案。

  • 多模态学习

多模态大语言模型(MM-LLM)能够整合并处理多种类型的数据,通常包括文本、图像、音频,有时还涵盖视频或其他传感器数据。这些模型超越了主要处理文本的传统语言模型,能够融合并理解来自不同感知输入的上下文信息。

PaLM-E:

PaLM-E是谷歌“路径”(Pathways)计划的一部分,该计划旨在创建能够跨不同模态执行多种任务的人工智能系统。它以大规模纯文本语言模型PaLM的成功为基础,融入了多模态能力。PaLM-E结合了文本和视觉嵌入,使其能够理解图像和文本提示,并据此生成内容。它可以进行图像字幕生成、视觉问答,甚至对视觉场景进行复杂推理,且所有这些都无需在特定任务数据集上进行大量微调。

LLaVA:

大语言与视觉助手(LLaVA)模型通过多模态方法,旨在弥合视觉与语言理解之间的差距。它将视觉编码器(CLIP)与语言解码器(Vicuna)相结合,形成一个用于视觉转语言任务的通用多模态大语言模型。训练过程包括在来自微软COCO数据集的15.8万个语言-视觉指令示例上对解码器进行微调。

mPLUG-OWL:

mPLUG-OWL由阿里巴巴达摩院的研究人员首次提出,由于参数灵活性有限,可能导致对齐不足。mPLUG-OWL采用先进的预训练大语言模型LLaMA-7B作为语言解码器,同时使用ViT-L/14作为视觉编码器的视觉基础模型,从输入图像中提取视觉特征。ViT是基于预训练的CLIPViT-L/14模型进行初始化的,以实现更快收敛。

  • 特定多模态(医学)大语言模型

AD-MM-LLM:

为诊断阿尔茨海默病(AD),该研究将预训练的大语言模型应用于非图像数据以进行知识嵌入,并使用ConvNeXt处理图像数据。同时开展多模态对齐,以实现多层次的多模态特征融合。

RAMM:

RAMM是一种检索增强的预训练与微调范式,它可以缓解生物医学视觉问答中的数据限制问题。通过从PubMed中提取图文对,构建了一个名为PMCPM的新生物医学数据集。利用图文对比目标(ITC)进行预训练。一种检索增强方法是基于ITC从预训练数据集中检索相似的图文对。

LLaVA-Med:

LLaVA-Med展现出卓越的多模态对话能力。LLaVA-Med需要基于图文说明对来校准生物医学词汇,并利用生成的遵循指令的数据学习开放式语义,这样它就能遵循开放式指令,辅助解答有关生物医学图像的疑问。其训练数据包括从PubMedCentral提取的生物医学图文说明数据集。此外,使用8块A100芯片,LLaVA-Med能在不到15小时内完成训练。

麒麟医学视觉语言模型(Qilin-Med-VL):

麒麟医学视觉语言模型是首个面向文本和视觉数据设计的中文大型视觉语言模型,它依托预训练的视觉Transformer和基础大语言模型。训练数据集为麒麟医学视觉语言数据集(ChiMed-VL),包含超100万图文对。该模型采用两阶段课程训练过程,包括特征对齐和指令微调,提升了生成医学图像说明以及回答复杂医学问题的能力。

05 医疗大语言模型的应用

  • 多种多样的应用

1)临床决策支持

医疗大语言模型在强化临床决策支持系统方面可发挥关键作用,该系统旨在帮助医疗保健专业人员在患者护理方面做出明智决策。具体方式包括:

①症状分析:通过理解医疗服务提供者或患者输入的症状的自然语言描述,医疗大语言模型可以将这些症状与庞大的医学知识数据库进行分析和关联,从而提出可能的诊断。这在识别复杂或罕见病症时特别有用。

②风险评估:医疗大语言模型可以评估患者数据,包括人口统计学信息、病史、生活方式因素以及当前健康状况,以评估患某些疾病或出现并发症的风险。这有助于实施积极的干预措施和个性化的预防策略。

③治疗建议:基于已诊断的病情,医疗大语言模型可以提出基于循证医学的治疗方案,同时考虑患者过敏史、药物相互作用以及最新临床指南等因素。这有助于临床医生为每位患者选择最合适的治疗方法。

2)临床报告生成

医疗大语言模型为临床报告生成提供了一种灵活的方式:

①自动报告撰写:通过处理来自电子健康记录(EHR)、影像学检查结果和实验室检测等各种来源的输入数据,医疗大语言模型可以自动生成全面、结构化的临床报告。这包括出院小结、放射学报告、病理学报告和手术记录等,为医疗专业人员节省时间。

②可定制模板:医疗大语言模型可以整合机构或特定专科的模板,确保生成的报告遵循所需格式,并包含所有必要信息。这种定制化提高了报告在不同临床场景下的实用性和可读性。

③一致性和准确性:依靠标准化的知识库,医疗大语言模型可以减少语言表达的差异,提高报告的整体质量。它们确保符合临床标准,并将手动报告可能出现的错误或不一致性风险降至最低。

3)医学教育培训

医疗大语言模型正在通过提供创新的教学、学习以及与医学知识互动的方式,变革医学教育。医疗大语言模型在医学教育领域的几个关键应用方向包括:

①问答系统:学生和从业者可以向这些模型提出复杂的医学问题,并从广泛的医学文献中获得准确且详细的解释。这有助于更深入地理解概念,并鼓励批判性思维。

②临床病例模拟:医疗大语言模型可以模拟具有特定症状、病史和检查结果的虚拟患者,使学习者能够在安全、可控的环境中练习诊断推理和治疗方案规划。

③研究论文总结:鉴于每天发表的医学文献数量庞大,大语言模型可以总结研究论文的关键发现、方法和意义,帮助学生有效地了解最新进展。

4)医疗辅助机器人

医疗大语言模型与医疗机器人的融合是一个新兴领域,有望彻底改变外科手术培训、患者护理以及先进机器人系统的开发。以下是医疗大语言模型能够在医疗机器人领域发挥作用的一些关键方面:

①个性化手术规划:通过获取患者的医疗记录和影像数据,医疗大语言模型可以协助制定个性化的手术方案,同时考虑到每位患者独特的解剖结构和健康状况。这些信息能够指导机器人系统实施高度定制化的手术。

②机器人手术培训:通过生成逼真的手术场景并提供实时反馈,医疗大语言模型可以加强外科医生使用机器人平台的培训。它们能够模拟各种并发症和患者反应,创造出更全面、动态的学习体验。

5)医学语言翻译

医疗大语言模型能够克服语言障碍,加强不同人群之间的沟通,改善医疗服务的提供。以下是医疗大语言模型给医学语言翻译任务带来变革的方式:

①医学术语的精准度:这些模型经过大量医学语料库的训练,能够掌握医学词汇的复杂之处,确保翻译不仅在语言上准确,而且在语境上也精确无误。这对于避免可能导致误诊或错误治疗的误解至关重要。

②实时翻译:在临床环境中,医疗大语言模型可以促进使用不同语言的医疗服务提供者与患者之间进行实时对话。这种实时翻译能力简化了咨询、紧急情况或远程医疗场景中的沟通流程。

③患者文档处理:它们可以自动翻译患者记录、入院表格、出院小结和同意书,确保医务人员能够迅速获取并理解关键信息,无论原始文档使用何种语言。

6)药物研发

将大语言模型(LLMs)整合到药物研发中,标志着药物研究领域取得了重大进展。这些由人工智能驱动的模型,通过大量生物医学数据进行训练,能够加快文献综述和数据挖掘的速度,揭示新的药物靶点和疾病机制。大语言模型通过预测诸如溶解度和毒性等分子特性,并设计出疗效优化的化合物,推动了计算机辅助药物研发。在虚拟筛选中,它们发挥着关键作用,能够从海量化学文库中高效识别出有潜力的候选药物。此外,大语言模型还助力临床试验的设计与分析,优化患者招募和个性化治疗方案。

需要着重指出的是,尽管这些工具能够大幅提升临床医生的工作效率与准确性,但它们不应取代人类专业知识和临床判断。医疗大语言模型旨在辅助而非替代医疗服务提供者的角色,确保诊断是在恰当的情境及伦理考量下做出的。直接的患者护理以及最终的诊断决策始终应由合格的医疗专业人员监督执行。

  • 医疗大语言模型面临的独特挑战

人工智能(AI)在医疗保健领域的应用面临一系列独特挑战。这些挑战包括管理受保护的健康信息,以确保数据隐私与安全;与临床工作流程无缝集成,以提高效率;确保模型部署的安全性和可追溯性,以维持患者和医疗机构的信任及责任。

1)受保护的健康信息:在数字医疗基础设施建设中,实施严格的安全协议和隐私保护措施至关重要。医疗保健机构肩负重大责任,要确保患者对其健康数据的管理、传输和使用充满信心。此外,这些机构必须遵守相关法律和道德标准,严格保护患者信息的机密性,从而维护医疗服务的可信度和可靠性。

2)临床工作流程:将大语言模型整合到现有的医院工作流程中面临诸多挑战,这一整合过程需要精心规划,以适应特定的医疗环境,并克服技术、伦理和操作方面的障碍。只有通过仔细规划并有效应对这些挑战,大语言模型才能无缝融入医院工作流程,进而提高患者护理的效率和质量。

3)安全性与问责制:由于大语言模型具有“黑箱”性质,其可解释性方面存在复杂的挑战。因此,为确保大语言模型的问责制与安全性,必须实施严格的监督与验证措施。这些措施旨在维护大语言模型应用的完整性和可信度,从而确保其在实际使用中的有效性和可靠性。

06 可信度与安全性

  • 公平性:

研究表明医疗领域存在偏见,而大语言模型能够从训练数据中捕捉到这些偏见并放大现有的偏见,从而产生医学上不公平的输出结果,确保大语言模型在医学应用中的公平性至关重要。大模型产生的医学偏见可能源于有偏差的数据和模型本身的局限性。如果使用有偏见的训练数据,大语言模型可能会保留甚至强化这种偏见。与此同时,偏见还来自模型在设计规范、结构和算法等方面的局限性。

目前,在医疗领域有多种量化大语言模型(LLM)偏见的技术。其中,差异度量在偏见检测中发挥着重要作用。对于开源大语言模型,利用临床医生反馈的强化学习等方法是一种很有前景的消除偏见方式。对于非开源大语言模型,通常需要根据下游任务训练策略来设计去偏程序。由于大多数闭源大规模大语言模型的表征不可获取,因此消除大规模大语言模型回复中的偏见难度更大,常用方法包括指令微调和提示工程策略。

  • 问责制:

大语言模型缺乏问责机制被视为阻碍其在医疗领域应用的一个障碍。为应对这一挑战,临床实践和研究通过可解释方法以及人为监督程序来确保大语言模型的可靠性。可解释方法能提高模型的透明度,帮助人们理解其决策过程。人为监督程序对于确保大语言模型运行的透明度和可靠性至关重要,包括临床试验方案制定以及对模型性能的持续监测,从而借助人类专家来弥合问责差距,提高大语言模型在医疗场景中的有效性。

  • 隐私:

大语言模型在文本生成过程中可能会无意间获取敏感信息,导致隐私泄露。无意的数据留存、数据泄露以及个人信息的潜在泄露,已成为大语言模型面临的主要隐私问题。根据隐私保护所处阶段,可分为预训练和微调保护方法。去识别化技术通过在预训练阶段对敏感信息进行全面的数据处理来保护隐私。DeID-GPTcite利用大模型强大的命名实体识别(NER)能力来识别敏感信息,实现自动去识别化,展现出较高的准确性和显著的可靠性,是最早利用大语言模型进行医学文本数据处理和去识别化的研究之一。与此同时,MA・拉赫曼提出,联邦学习、差分隐私可以减少在微调过程中因调用大语言模型应用程序编程接口(API)而导致的医疗行业数据泄露问题。

  • 稳健性:

医疗大语言模型未来可能的研究方向之一是探索在医疗领域构建有效的对抗测试样本,包括构建合成异常病例和边界压力测试,以评估大语言模型在医疗领域的稳健性。已有许多研究采用不确定性量化方法来提高稳健性。例如,沈柯等人提出了一种形式化方法,通过使用风险调整后的置信度分数来提高大语言模型的稳健性。通过在测试时有效地将模型生成的增强数据用作增强手段,我们可以在保持模型性能的同时,减少模型对高成本增强的依赖,这对于推动大语言模型在医疗领域的应用具有重要意义。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值