一篇综述洞悉医学大型语言模型的原理，应用和挑战_一篇综述洞悉医学大型语言模型的原理,应用和挑战-CSDN博客

本文链接：https://blog.csdn.net/hanseywho/article/details/135649869

本文探讨了近年来大型语言模型在医学领域的革新，包括Principles（原理）、Applications（应用）和Challenges（挑战），如MedPaLM在USMLE中的表现，以及面临的幻觉、评估基准不足等问题。研究者提出通过跨学科合作提升模型的适用性和安全性，以推动医学人工智能的未来发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在过去的一年中，随着 GPT-4、LLaMA、Mistral，PaLM 等先进技术的突飞猛进，大型语言模型（Large Language Models）已经引领全球人工智能进入了一个全新的基础模型时代，这一时代不仅开启了技术创新的新篇章，也彻底重塑了各行各业的运作模式。特别是在医疗领域，这些变革显得尤为突出。医疗领域不仅是全球各国竞相投资的重点研究领域，而且与一个国家的医疗水平和综合国力密切相关。在这样的背景下，大型语言模型在医疗领域究竟能带来怎样的变革和影响？

近日，牛津大学的David A. Clifton，罗切斯特大学的罗杰波（Jiebo Luo）和亚马逊的Zheng Li领导的一个联合团队发布了一篇综述报告，介绍了医学大型语言模型在原理、应用和面临的挑战方面的最新进展（截止至2024年），通过深入探讨相关技术发展，提供宝贵的见解，为构建更加实用和高效的医学大型模型奠定坚实的基础。

论文题目： A Survey of Large Language Models in Medicine: Principles, Applications, and Challenges
论文地址： https://arxiv.org/abs/2311.05112
项目地址： https://github.com/AI-in-Health/MedLLMsPracticalGuide

近期，通用大型语言模型（LLMs）如PaLM、LLaMA、GPT系列和ChatGLM在多种自然语言处理（NLP）任务中展现出前所未有的进展。这些任务包括文本生成、文本摘要和问题回答等。受到这些模型在自然语言处理领域的成功启发，研究者们开始尝试将通用LLM调整应用于医学领域，从而催生了一系列医学专用的大型模型。例如，基于PaLM开发的MedPaLM和MedPaLM-2在美国医学许可考试（USMLE）上的表现，几乎与人类专家（87.0）持平，达到了86.5的竞争性准确率。此外，基于公开可用的LLM (例如LLaMA）衍生出的几个医学LLM包括ChatDoctor、MedAlpaca、PMC LLaMA、BenTsao和Clinical Camel等，正引发越来越多的关注，它们在协助医疗专业人员改善患者护理方面展现出巨大潜力。

尽管这些医学LLMs取得了令人鼓舞的成果，但在其开发和应用过程中，仍面临一些挑战。首先，许多模型主要关注生物医学NLP任务，如对话和问题回答，但其在临床实践中的实际应用价值往往被忽视。近期的研究开始探讨医学LLM在不同临床场景中的应用潜力，例如，电子健康记录（EHRs）的出院结论生成、健康教育和护理计划等。然而，这些研究多为案例研究，并依赖于临床医生对少量样本的人工评估，因此缺乏全面的评估数据集来衡量模型在实际临床场景中的表现。其次，大多数现有医学LLM的研究主要聚焦于医学问题回答的生物医学NLP性能，而忽略了文本摘要、关系提取、信息检索和文本生成等其他生物医学任务。这些研究空白激发了我们进行这项调查，旨在全面回顾LLM的发展及其在医学领域的应用，并探讨面临的挑战和机遇。

如图1所示，本综述旨在回答以下问题：