A Survey of Large Language Models in Medicine:Progress, Application, and Challenge

A Survey of Large Language Models in Medicine:Progress, Application, and Challenge

医学大型语言模型综述:进展、应用和挑战

论文地址: https://arxiv.org/abs/2311.05112
项目地址: https://github.com/AI-in-Health/MedLLMsPracticalGuide
本综述介绍了医学大型语言模型在原理、应用和面临的挑战方面的最新进展(截止至2024年),通过深入探讨相关技术发展,提供宝贵的见解,为构建更加实用和高效的医学大型模型奠定坚实的基础。
本综述旨在回答以下问题:
1)什么是医学LLMs?
2)如何衡量LLM在医疗环境中的医疗任务绩效?
3)医学LLM如何在现实世界中应用?
4) 使用医学LLM会带来哪些挑战?
5)如何更有效地开发和部署医学LLM?

1.介绍

对于第一个问题,我们总结了现有医学LLMs的关键原则,详细介绍了它们的基本结构、参数数量以及用于模型开发的数据集。此外,我们还提供了这些模型构建过程中的关键见解,这对于希望根据特定需求(如计算限制、私有数据和本地知识库)定制医学LLM的研究人员和医疗从业者极具价值。

对于第二个问题,我们通过广泛的调查,对现有医学LLMs在十种生物医学NLP任务(包括判别和生成)上的性能进行了评估。这种全面的分析帮助我们理解医学LLMs在多个方面是如何超越传统医学人工智能模型的。通过展示它们的能力,我们旨在阐明医学LLMs在临床环境中部署时所带来的优势。

第三个问题着重于医学LLMs在临床环境中的实际应用。我们为七个临床应用场景提供了指南,详细说明了医学LLM的具体实施方式,并强调了在每个场景中能够发挥的能力。

第四个问题强调了在临床实践中部署医学LLM时必须克服的挑战。这些挑战包括生成幻觉(即产生连贯但事实不正确的输出)、模型的可解释性问题、伦理考量,以及医学LLM的法律和安全问题。我们还提倡对医学LLM进行更广泛的评估,比如信任度,以确保其在临床环境中的负责任和有效使用。

最后一个问题,我们展望了医学LLM的未来发展方向,并为那些希望推动该领域发展、最大化医学LLMs潜力的研究人员和从业者提供了指导。

2.医疗大语言模型

为了清晰起见,本节重点总结医学大语言模型的原理。现有的医学LLM主要是包括三种类型(1)从头开始进行预训练,(2)从现有的通用LLM中进行微调,或者(3)通过提示将普通LLM与医学领域对齐直接获得。因此,我们从预训练、微调和提示三种方法介绍了医学LLM的原理。

2.1 预训练

预训练是医学大型语言模型开发中的一个关键过程,它涉及在庞大的医学文本库上训练模型,以吸收和学习丰富的医学知识。这个语料库可能包括电子健康记录(EHRs)、临床笔记和医学文献等。其中,PubMed、MIMIC-III临床笔记和PubMed Central(PMC)文献是三个广泛使用的医疗语料库。预训练可以使用单一语料库或它们的组合,例如PubMedBERT和ClinicalBERT分别基于PubMed和MIMIC-III进行预训练,而BlueBERT结合了两者;BioBERT则基于PubMed和PMC。此外,佛罗里达大学(UF)健康EHRs被用于GatorTron和GatorTronGPT的预训练,而MEDITRON则基于临床实践指南(CPGs)进行预训练,这些指南用于指导医疗从业者和患者做出基于证据的诊断、治疗和管理决策。

为满足医疗领域的需求,医疗LLM的预训练通常会对一般LLM中常用的训练目标进行微调,包括掩码语言建模、下一句预测和下一个标记预测。BERT系列模型(如BioBERT、PubMedBERT、ClinicalBERT和GatorTron)主要采用掩码语言建模和下一句预测进行预训练;而GPT系列模型(如BioGPT和GatorTronGPT)则主要采用下一个标记预测进行预训练。值得注意的是,BERT类医疗LLM(如BioBERT、PubMedBERT、ClinicalBERT)最初源自通用领域的BERT或RoBERTa模型。我们尝试通过不同结构的参数进化图(图 1)洞察医学大语言模型的发展。随着模型规模的扩大,哪种结构有可能在医学任务上能够出现类似于通用LLM模型的“涌现”(GPT 2 -> GPT 3),从而实现超级医学大型语言模型。

图1  通过不同结构的参数进化图洞察医学大语言模型的发展

2.2微调

从头开始训练医学LLMs是高成本和耗时的,因为它需要大量(例如几天甚至几周)的计算能力和体力。一种解决方案是用医学数据对通用语言大模型进行微调,研究人员提出了不同的微调方法,用于学习特定领域的医学知识并获得医学LLM。当前的微调方法包括监督微调(SFT)、指令微调(IFT)和参数有效调整。

  • 监督微调(SFT):旨在利用高质量的医疗语料库,这可以是医生与患者之间的对话、医疗问答和知识图谱。构建的SFT数据作为预训练数据的延续,以相同的训练目标(例如,下一个词预测)进一步预训练通用LLM。SFT提供了一个额外的预训练阶段,使通用LLM能够学习丰富的医疗知识并与医疗领域保持一致,从而将其转变为专业的医疗LLM。

  • 指令微调(IFT)首先构建基于指令的训练数据集,这些数据集通常由指令输入输出三元组组成,例如指令问答。IFT的主要目标是增强模型遵循各种人工/任务指令的能力,使其输出与医学领域保持一致,从而生成专门的医学LLM。

  • 参数高效调整:旨在大幅降低微调通用LLM的计算和内存需求。主要思想是通过仅微调这些LLM中的最小参数子集(或附加参数),保持预训练LLM中大多数参数不变。常用的参数有效微调技术包括低秩自适应(LoRA)、前缀微调和适配器微调。

2.3提示

与预训练相比,微调大大降低了计算成本,但它需要进一步的模型训练和高质量数据集的收集来进行微调,因此仍需要消耗一些计算资源和人工。相反,“提示”方法有效地将一般LLM(如PaLM)与医学领域(如MedPaLM)对齐,而无需训练任何模型参数。流行的提示方法包括零/少样本提示、思想链提示、自一致性提示和提示调整。

  • 零/少样本提旨在直接给出指令,提示LLM按照给定指令有效执行任务。零样本提示没有提供示例。在要求LLM执行任务之前,很少有样本提示会向LLM提供少量示例或任务演示。

  • 思想链提示进一步提高了模型输出的准确性和逻辑性。具体来说,通过提示词,思维链提示旨在提示模型在处理下游(复杂)问题时生成推理的中间步骤或路径。

  • 自一致性提示建立在思维链提示之上,以进一步增强回复的稳健性。它鼓励模型多次尝试生成同一问题的多个答案,然后在不同的尝试中选择最一致的答案,从而提高模型性。

  • 提示调整旨在通过采用提示和微调技术来提高下游模型的性能。提示调整方法引入了可学习的提示,即。可训练的连续向量,可以在微调过程中进行优化或调整,以更好地适应不同的下游场景和任务。

2.4医疗任务

在本节中,我们将介绍两种流行的医疗机器学习任务类型:生成性任务和判别性任务,包括十个具有代表性的任务,这些任务进一步构建了临床应用。

  • 判别任务:用于根据给定的输入数据将数据分类或区分为特定的类别。它们涉及对不同类型的数据进行区分,通常是对结构化文本或非结构化文本中的相关信息进行分类、分类或提取。具有代表性的判别任务包括问答、实体提取、关系提取、文本分类、自然语言推理、语义文本相似性和信息检索。

  • 生成任务:与专注于理解和分类输入文本的判别性任务不同,生成性任务需要一个模型来根据给定的输入准确地生成流畅和合适的新文本。这些任务包括医学文本摘要、医学文本生成和文本简化。

图 2  GPT-3.5 turbo、GPT-4、最先进的任务特定微调模型和人类专家在11个数据集的7个下游生物医学NLP任务上的性能比较

图 2 中呈现的是各种医学LLM之间的性能对比。在这个对比中,我们观察到某些通用LLM(例如GPT-3.5-turbo和GPT-4)在多种下游任务上展现出了卓越的性能。这一点在问答任务中尤为突出,如图中的蓝线所示,GPT-4的表现不仅始终优于专门针对特定任务微调的模型,甚至与人类专家的表现(如紫线所示)相媲美。所评估的问答数据集包括MedQA(USMLE)、PubMedQA和MedMCQA等。

然而,当我们转向非问答任务时,发现通用LLM的性能往往不如特定任务微调的模型。例如,在使用NCBI疾病数据集进行的实体提取任务中,专门微调的BioBERT模型取得了89.36的F1分数,而GPT-4的表现仅为56.73。这种差异可能是因为问答任务本质上是封闭式的,即正确答案已经在有限的选项中提供。而在开放式的非问答任务中,模型必须在广泛的可能选项中预测正确答案,有时甚至没有任何候选答案可供参考。

总体来看,这些比较结果明确显示,当前的通用LLM在问答任务上具有强大的能力,但在其他任务类型上仍有改进空间。因此,我们建议在评估医学LLM时,应将其应用范围扩展到包括非问答任务在内的更广泛的任务类型,而不应仅限于医学问答任务。这种全面的评估方式将更好地反映医学LLM的真实能力和潜在的应用价值。

4.临床应用

4.1医疗诊断

医疗决策制定,包括诊断、预后、治疗建议、风险预测、临床试验匹配等,高度依赖于来自患者病历、临床数据及最新医学文献等多种来源的大量信息的综合与解读。大型语言模型(LLM)的出现为提升这些医疗领域的关键流程提供了新的机遇。这些先进模型能够快速处理和理解海量的医疗数据、文献和法律指南,帮助医疗专业人员在各种临床场景下做出更加知情且符合法律规范的决策。

  • 诊断:LLM可以协助医生分析来自测试和患者自述的客观与主观医疗数据,以推断出患者最可能的健康问题。
  • 治疗规划:基于最新的临床证据和患者特定因素,LLM可以提供个性化的治疗建议。
  • 预后与风险预测:LLM能从大规模患者数据中识别出模式和风险因素,从而实现更准确、更及时的干预。
  • 局限性:LLM作为医疗诊断的唯一工具存在局限性,特别是严重依赖患者的主观文本输入。LLM缺乏分析医学诊断影像的能力,因为客观医疗诊断常依赖于视觉图像。然而,LLM可以作为逻辑推理工具,帮助提高其他基于视觉的模型的准确性,如ChatCAD通过结合计算机辅助诊断(CAD)模型和LLM来改进诊断准确性。
4.2 格式化和ICD编码

临床编码,如国际疾病分类(ICD)、药物编码和手术编码等,在医疗领域发挥着至关重要的作用,它通过标准化诊断、程序和治疗信息来优化医疗流程。这些编码对于跟踪健康指标、治疗效果、账单和报销流程至关重要。然而,手动输入这些编码既耗时又容易出错。大型语言模型(LLMs)通过从临床记录中提取相关医学术语并分配相应编码(包括ICD编码、药物编码和手术编码)展示了自动化临床编码过程的潜力。利用LLMs丰富的医学知识和自然语言理解能力,可以减轻医疗专业人员的工作量,提高临床编码的准确性。

运用:PLM-ICD

它基于RoBERTa模型并针对ICD编码进行了微调,利用特定医学领域的基础模型增强了对医学术语的理解能力,并在MIMIC-II和MIMIC-III数据集上取得了优异表现。其他方法如DRG-LLaMA利用LLaMA模型并通过参数高效的微调技术(如LoRA)来适应ICD编码任务。ChatICD和LLM-codex则使用ChatGPT模型并设计ICD编码提示,其中LLM-codex更进一步,在ChatGPT响应的基础上训练了一个LSTM模型,展现了强大的性能。

挑战:潜在的偏差和幻觉问题。传统多标签分类模型可以通过分类神经网络将输出限制在预定义的候选代码列表中(通常超过1000个),而生成式LLMs在处理长文本时可能出现严重幻觉,为输入文本分配不在候选列表中的代码或非存在临床代码,导致解读医疗记录时产生混淆。

4.3 临床报告生成

临床报告,是医疗工作者在每次患者就诊后完成的标准化文档。

在利用LLMs生成临床报告时,一种流行的方法是结合视觉模型提供补充信息。视觉模型分析输入的医学图像并生成注释,这些注释与额外的文本提示一起作为LLM的直接和补充输入。通过结合视觉和文本信息,LLM能够生成准确且流畅的报告,同时符合特定的参数和结构。

挑战:尽管LLMs在生成比人类编写的更全面和精确的临床报告方面显示出能力,但它们仍面临幻觉和字面解释输入的挑战,缺乏人类医生常采用的基于假设的视角。此外,LLM生成的报告往往不如人类编写的报告简洁。评估该领域LLM的特别挑战在于内容的专业性和任务的生成性。当前的自动评估方法主要侧重于词汇指标,这可能导致对报告中上下文信息的偏见和不准确评估。

4.4医疗机器人

医疗机器人技术正在彻底改变医疗保健领域,通过提高手术操作和医学影像等各方面的精确度。LLMs作为机器人技术的补充技术,增强了其决策制定、沟通、交互和控制能力。例如,配备LLMs的手术机器人能够实现更精准的微创手术,减少患者恢复时间。此外,LLMs还促进了多机器人协同作业,提高了手术的准确性和效率。在超声和放射学诊断领域,LLMs结合领域知识,实现了更精确的诊断和动态扫描策略,提升了扫描效率和质量。

挑战:临床评估这些系统具有复杂性,因为医疗程序的复杂性、伦理考虑和患者安全顾虑使得在实际医疗环境中进行全面评估变得困难。

4.5医疗教育

医疗保健专业领域特定角色的培训至关重要。医学教育既适用于专业人员,也适用于普通公众。大型语言模型可以通过不同的方式融入医学教育系统,包括回答问题、帮助学生准备医学考试以及担任苏格拉底式导师。

挑战:然而,使用LLMs进行医学教育也存在潜在弊端,包括当前训练数据中的伦理培训不足和偏见。这些偏见若未得到处理,可能会通过生成的内容传播,强化刻板印象并可能导致医学教育中的歧视。此外,LLMs可能生成看似合理但事实错误的信息,导致学生和医疗专业人员被误导,从而传播误解、采取不恰当的治疗策略或误诊。

4.6 心理健康支持

心理健康支持涉及诊断和治疗两方面。抑郁症等心理问题通常通过包括认知行为疗法、人际心理疗法、精神动力疗法等在内的多种心理疗法进行治疗。这些疗法多依赖于医患之间的对话,治疗周期长且费用高昂,对许多患者而言构成障碍。大型语言模型(LLMs)作为对话伙伴和陪伴者的潜力,可能降低经济或身体受限患者的治疗门槛,提高心理健康治疗的可及性。已有研究表明,将LLMs纳入治疗计划具有多种效果。

例子:PsyChat、ChatCounselor和Psy-LLM

挑战:将LLMs用于心理健康支持面临两大挑战:情感理解不足和可能产生不适当或有害的响应。LLMs难以完全理解和响应个体的复杂情绪状态和需求,可能缺乏人类治疗师所具备的同理心和人际联系。此外,未经适当训练或控制的LLMs可能生成不恰当、不敏感甚至有害的响应,对处于脆弱情绪状态的患者构成风险。

5.挑战

5.1 幻觉现象

大型语言模型(LLMs)的幻觉现象指的是其生成的输出中包含不准确或非事实性的信息。这种现象可以分为内在幻觉和外在幻觉两种类型。

  • 内在幻觉:生成的输出在逻辑上与事实信息相矛盾,如数学公式的错误计算。
  • 外在幻觉:生成的输出无法验证,典型例子包括LLMs伪造不存在的引用或回避问题。

在医疗领域整合LLMs时,流畅但非事实性的LLMs幻觉可能导致错误医疗信息的传播,进而引发误诊、不适当的治疗和对患者的有害教育。因此,在医疗领域确保LLMs输出的准确性至关重要。

潜在解决方案

目前,缓解LLMs幻觉的解决方案可以大致分为三类:训练时校正、生成时校正和检索增强校正。

  1. 训练时校正:通过调整模型参数权重来降低生成幻觉输出的概率。具体方法包括事实一致性强化学习和对比学习等。

  2. 生成时校正:在LLMs推理过程中增加“推理”步骤以确保可靠性。这可以通过抽取多个样本或使用置信度分数来在最终生成前识别幻觉。

  3. 检索增强校正:利用外部资源来减轻幻觉现象,例如使用事实性文档作为提示或采用链式检索提示技术。

5.2 缺乏评估基准和指标

当前的评估基准和指标往往无法全面评估大型语言模型(LLMs)的整体能力,特别是在医疗领域。例如,MedQA(USMLE)和MedMCQA等基准在问答任务上提供了广泛的覆盖范围,但未能评估LLMs特有的重要指标,如可信度、有用性、可解释性和忠实度。因此,开发针对特定领域(如医疗)和LLMs特性的评估基准和指标至关重要。

潜在解决方案
  • Singhal等人提出的HealthSearchQA:该基准包含常见的健康搜索查询,为评估LLMs在医疗领域的能力提供了更符合人类需求的基准。HealthSearchQA的设计考虑到了医疗领域用户的实际需求,有助于更准确地评估LLMs在实际应用中的表现。

  • 特定于LLMs的基准:如TruthfulQA和HaluEval等基准评估了LLMs的特定指标,如真实性,但尚未涵盖医疗领域。这些基准为开发更全面的LLMs评估体系提供了重要参考,但需要进一步扩展以覆盖医疗领域。

5.3 医学领域数据限制

当前医学领域的数据集(如表2所示)相较于用于训练通用大型语言模型(LLMs)的数据集(如表1所示)仍然相对较小。这些有限的小数据集仅覆盖了庞大的医学知识领域中的一小部分空间。这导致LLMs在开放基准测试上表现出色,但在实际任务(如鉴别诊断和个性化治疗计划)中却表现不佳。

尽管医学和健康数据的总量很大,但大多数数据由于需要遵循严格的伦理、法律和隐私程序而难以获取。此外,这些数据往往未经标注,而利用这些数据(如通过人工标注和无监督学习)的解决方案又面临着人力资源不足和错误容忍度小的挑战。

潜在解决方案
  1. 细粒度微调:当前最先进的方法(如参考文献11,15)通常会在较小的开源数据集上对LLMs进行细粒度微调,以提高其在特定领域的性能。这种方法可以帮助LLMs更好地适应医学领域的语言和语境。

  2. 合成数据集:另一种解决方案是使用LLMs生成高质量的合成数据集,以扩大知识覆盖范围。然而,已有研究发现,在生成的数据集上进行训练会使模型遗忘原始知识(如参考文献239所述)。因此,未来研究需要验证在医学领域使用合成数据训练LLMs的有效性,并探索如何避免或减少这种遗忘现象。

  3. 加强数据共享与合规性:推动医学数据的共享,同时确保数据在合规性、隐私性和伦理方面的安全。这可以通过建立标准化的数据共享协议、使用差分隐私等技术来保护个人隐私,以及增强数据标注和预处理过程中的自动化和效率来实现。

  4. 无监督与半监督学习:利用无监督和半监督学习方法来充分利用未标注的医学数据。这些方法可以减少对大量标注数据的依赖,并提高LLMs在医学领域的知识获取能力。

  5. 跨学科合作:加强医学、计算机科学、法学和伦理学等领域的跨学科合作,共同解决医学数据利用中的技术、法律和伦理问题,推动LLMs在医学领域的实际应用和发展。

5.4 新知识适应

大型语言模型(LLMs)通过训练大量数据来学习知识。然而,一旦训练完成,通过重新训练向LLMs注入新知识既昂贵又低效。但有时候,更新LLMs的知识是必要的,比如关于药物的新副作用或新型疾病的信息。在这种知识更新过程中,存在两个问题。第一个问题是如何让LLMs适当地“忘记”旧知识,因为几乎不可能从训练数据中完全移除所有“旧知识”,新旧知识之间的差异可能导致意外的关联和偏见。第二个问题是额外知识的时效性——如何确保模型能够实时更新?这两个问题都是LLMs在医学领域应用中的重大障碍,因为在实际应用中,医学知识的准确性和及时更新至关重要。

潜在解决方案

当前解决知识适应问题的方法可以分为模型编辑和检索增强生成两类。

  1. 模型编辑:通过修改模型的参数来改变模型的知识。然而,这种方法并不具有很好的通用性,其有效性因不同的模型架构而异。此外,直接修改模型参数可能引入新的偏差或错误,且难以精确控制哪些旧知识应该被遗忘。

  2. 检索增强生成:在模型推理过程中,通过提供外部知识源作为提示来增强生成。例如,Lewis等人通过更新模型的外部知识存储器来实现模型知识的更新。这种方法不需要重新训练整个模型,而是利用外部知识库来补充或修正模型的输出。这种方法具有更高的灵活性和实时性,能够更快速地适应新知识,同时避免了对旧知识的直接修改。

5.5 行为对齐

行为对齐是指确保LLMs(大型语言模型)的行为与其任务目标保持一致的过程。尽管已有大量努力用于将LLMs与一般人类行为对齐,但一般人类与医疗专业人员之间的行为差异仍然是LLMs在医学领域应用中的挑战。例如,ChatGPT等模型在一般人类行为上表现良好,但在医疗咨询方面的回答并不像人类专家那样简洁和专业。此外,医学领域中的行为不一致还可能引入不必要的伤害和伦理问题,导致不良后果。

潜在解决方案
  1. 指令微调(Instruction Fine-tuning):基于明确的指令来改善LLMs在特定任务上的表现。例如,Ouyang等人使用指令微调来帮助LLMs生成更少毒性且更合适的输出。这种方法可以通过为LLMs提供针对医学领域特定任务的详细指令,来增强其生成回答的准确性和专业性。

  2. 人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF):利用人类反馈来评估和对齐LLMs的输出。这种方法在多个任务中都表现出色,包括成为有用的聊天机器人和决策代理。在医学领域,可以通过收集医疗专业人员的反馈来训练LLMs,以使其生成的回答更加符合医疗实践标准和伦理要求。

  3. 提示调整(Prompt Tuning):通过调整输入提示来使LLMs的输出与预期格式对齐。例如,Liu等人使用了一种名为“后见之明链”的提示策略,使模型能够检测和纠正其错误,从而将生成的输出与人类的期望对齐。在医学领域,可以设计针对医学问题的特定提示,以引导LLMs生成更准确的答案。

5.6 伦理与安全问题

在医疗领域使用LLMs(如ChatGPT)时,已经引发了关于伦理、责任和安全的担忧。例如,科学界已经反对在撰写生物医学研究论文时使用ChatGPT,因为存在伦理问题。将LLMs作为医疗实践的辅助工具时,其责任归属也颇具挑战性。Li等人250和Shen等人229发现,通过特定的提示注入,LLMs可能会从其训练数据中泄露个人可识别信息(PII),如电子邮件地址,这在医疗领域实施LLMs时构成了一个重大漏洞。

潜在解决方案

尽管目前没有直接的解决方案可用,但我们已观察到研究界正努力理解这些伦理和法律问题的根源。例如,Wei等人251提出,PII泄露的原因可归结为安全与能力目标之间的不匹配泛化(即LLMs的预训练使用了更大且更多样化的数据集,而安全训练所使用的数据集相对较小,导致模型的许多能力并未在安全训练中得到覆盖)。基于这一发现,可以采取以下策略来减轻这些风险:

  1. 加强安全训练:在LLMs的训练过程中增加专门的安全训练模块,特别是针对医疗领域的敏感信息保护。这可以通过使用标记有PII保护需求的数据集进行训练来实现,以确保模型在生成文本时不会无意中泄露此类信息。

  2. 隐私保护技术:集成差分隐私、联邦学习等隐私保护技术到LLMs的训练和推理过程中,以减少PII泄露的风险。这些技术可以在保护用户数据隐私的同时,允许模型进行有效的学习和推理。

 图 3 临床医学LLM在开发和部署方面的未来方向

6.未来方向

6.1引入新的评测基准

近期研究指出了现有基准在评估用于临床应用的LLMs(大型语言模型)方面的不足。传统基准主要侧重于医疗问答的准确性,但无法全面评估LLMs所需的临床技能全貌。人们批评以人类为中心的标准化医学考试用于LLMs评估,认为通过这些考试并不能反映LLMs在现实世界临床环境中所需的精细专业能力。

为应对这一问题,逐渐形成了对更全面基准的共识。这些新基准应包含从权威医学资料中获取信息、适应不断变化的医学知识以及清晰传达不确定性的能力。为了进一步增强这些基准的相关性,新基准应纳入通过模拟现实世界应用场景来测试LLMs能力的情景,并根据临床医生的反馈进行调整,同时保持其稳健性。

此外,鉴于医疗行业的敏感性,这些基准还应评估公平性、伦理和公正性等关键因素,尽管这些因素至关重要,但在量化上却存在挑战。尽管如AMIE研究等努力已通过利用真实医生的评估和基于实际临床技能和沟通的全面标准(如客观结构化临床考试OSCE)来推动基准的进步,但仍迫切需要适应性强、可扩展且稳健的基准,以满足LLMs在多样化和个性化应用中的需求。

目标是创建更能有效反映各种现实世界临床情景的基准,从而更准确地衡量LLMs在医学应用中的适用性。未来研究可能集中于:

  1. 使用合成数据结合现实世界数据:创建既全面又可扩展的基准。
  2. 采用临床指南和标准:反映传统基准中通常不包含的现实世界价值。
  3. 医生参与式基准:评估LLMs在利用其人类对应方或用户时的性能。

6.2 结合时间序列、视觉和音频数据的多模态医学大模型

现有方法提出了集成视觉和语言的各种基于多模态医学大模型的框架,以采用医学图像-文本对进行微调,从而使医学大模型能够有效地理解输入的医学图像。近来研究者认为将视觉、音频和语言输入集成在大模型中会极大地帮助牙科诊断,然而,只有极少数的医学LLM可以处理时间序列数据,如心电图(ECG)和血压计(PPG),尽管这些数据对医学诊断和监测很重要。

展望未来,研究可能集中于:

  1. 更有效地处理、表示和学习多模态数据和知识:以提高MLLMs的性能和效率。
  2. 成本效益高的MLLMs训练:特别是针对资源需求更高的模态,如视频和图像。
  3. 安全地收集或访问当前在医学和医疗保健领域不可用的多模态数据:以支持MLLMs的进一步发展和应用。
6.3 医学智能体

基于LLM的智能体(Agents)通过将LLMs与外部工具和多模态感知相结合,这些代理能够与环境交互、从反馈中学习并获取新技能,从而通过类似人类的行为(如角色扮演和沟通)解决复杂任务(如软件设计、分子动力学模拟)。

然而,在医疗领域内有效集成这些代理仍面临挑战。医疗领域涉及众多角色和决策过程,特别是在疾病诊断中,往往需要一系列的检查,包括CT扫描、超声、心电图和血液检测等。利用LLMs来模拟这些角色,从而创建协作式医疗代理,是一个有前景的方向。这些代理可以模仿放射科医生、心脏病专家、病理学家等角色,各自专注于解释特定类型的医疗数据。例如,放射科医生代理可以分析CT扫描,而病理学家代理可以专注于血液检测结果。这些专门化代理之间的协作可以带来更全面和准确的诊断。

通过利用LLMs的综合知识库和上下文理解能力,这些代理不仅能够解读单个医疗报告,还能将这些解读整合成一个连贯的医疗意见。为了增强基于LLMs的代理的集成,未来的研究可以探索:

  1. 无缝数据管道:收集来自各种设备的数据,并将其转换为与LLMs兼容的数据格式。
  2. 有效的代理间通信与协作:特别是在确保通信真实性、代理间争议解决和基于角色的数据安全措施等方面。
  3. 实时决策制定:利用远程监控设备收集的数据做出及时决策。
  4. 自适应学习:为应对新的流行病或从未见过的医疗状况做好准备和学习。
6.4 跨学科合作

在医学领域,跨学科合作对于开发医疗用大型语言模型至关重要,正如其在核能生产等安全关键领域中的重要性一样。为了确保AI在医学中的安全性和有效性,医学界与科技界的合作不可或缺。目前,医学界主要采用了科技公司提供的LLM,但往往未对其数据训练、伦理协议或隐私保护进行严格审查。因此,需要鼓励相关医务人员积极参与创建和部署医疗大模型,提供相关的训练数据,定义医学大模型的预期收获,并在现实世界中进行测试以评估这些优势。

随着LLM在医疗保健中的快速融合,培养“双语”专业人才——即既精通医学又熟悉LLM技术的专家——变得日益重要。未来的研究可以探索以下几个方向:

1.建立跨学科框架,如促进农村诊所本地化数据共享的框架;

2.实施“双语教育计划”,提供AI与医学双领域的培训;

3.开发有效的内部开发方法,帮助医院和医生在保护患者隐私的同时,仍能够拥抱创新。

 

 

 

 

  • 26
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值