【医疗大模型】MEDITRON-70B: Scaling Medical Pretraining forLarge Language Models

li_li_rui

已于 2024-07-18 17:22:48 修改

阅读量650

点赞数 8

文章标签：人工智能机器学习语言模型

于 2024-07-17 10:13:16 首次发布

本文链接：https://blog.csdn.net/li_li_rui/article/details/140487056

版权

总体概要

文章介绍了MEDITRON-70B，一个针对医疗领域优化的开放源代码大型语言模型（LLM），它基于Llama-2模型，通过在精心策划的医疗数据集上进行预训练，包括PubMed文章、摘要和国际认可的医疗指南，以提高其在医疗推理任务上的性能。文章展示了MEDITRON在四个主要医疗基准测试上的显著性能提升，并与现有的闭源和开源模型进行了比较。MEDITRON-70B在多个指标上超越了如GPT-3.5和Med-PaLM等模型，并与GPT-4和Med-PaLM-2接近。文章强调了MEDITRON在提高医疗知识获取公平性方面的潜力，同时提醒其在实际医疗应用中的安全性和适当性问题，并建议在部署前进行广泛的实际测试和随机对照试验。此外，文章还详细描述了MEDITRON的预训练数据集构成、训练方法和评估结果，以及对模型在真实世界应用中可能遇到的安全和偏见问题的评估。

核心要点

MEDITRON模型发布：
- EPFL团队发布了MEDITRON，一套专为医疗领域设计的开放源代码大型语言模型，包括7B和70B参数版本，基于Llama-2模型，通过在精选的医学数据集上进行预训练，旨在提高模型在医学知识和推理方面的能力。
医学预训练数据集：
- MEDITRON的预训练数据集包括PubMed中央和PubMed开放获取的研究论文、PubMed摘要以及来自多个国家和组织的临床实践指南，总计约48.1亿tokens。
分布式训练扩展：
- 为了支持Llama-2模型的训练，团队扩展了Nvidia的Megatron-LM分布式训练库，实现了对Llama-2架构的支持。
医学推理基准测试：
- MEDITRON在四个主要的医学推理基准测试中表现出色，包括MedQA、MedMCQA、PubMedQA和MMLU-Medical，显示出在医学问题回答和多选题任务上的显著性能提升。
性能比较：
- 与现有的公开医学语言模型相比，MEDITRON在未经微调和经过微调的情况下均展现出更高的性能，与封闭源模型如GPT-3.5和Med-PaLM相比，MEDITRON-70B模型在某些任务上达到了接近甚至超越的性能水平。
开放源代码贡献：
- 团队公开了用于构建医学预训练数据集的代码、分布式训练库以及MEDITRON模型的权重，以促进开放源代码社区在医学语言模型领域的进一步发展和应用。
安全性和责任性：
- 尽管MEDITRON在医学推理方面表现出潜力，但团队强调在实际医疗应用中部署前需要进行广泛的安全性和责任性评估，包括随机对照试验和真实世界实践设置的测试。

段落概要

Introduction

本文介绍了MEDITRON-7B和70B，这是一对专为医学推理设计的生成式大型语言模型（LLMs），它们通过对高质量医学数据源的持续预训练，从Llama-2模型中衍生而来。文章强调了这些模型在医学领域的重要性，因为它们能够提供标准化医学知识的平等访问，这是当前医疗实践中的一个持续优先事项。MEDITRON模型在多项医学推理基准测试中表现出色，超过了现有的最先进模型，展示了其在医学领域的应用潜力。文章还提出了一个优化的工作流程，用于扩展特定领域的预训练，包括知识驱动的数据收集、分布式训练管道的持续预训练、微调、少样本上下文学习以及高级推理方法，如思维链推理和自我一致性。最后，文章宣布将发布训练语料库、分布式训练库以及MEDITRON模型，以促进公共领域的实际评估和其他领域的类似努力。

Medical Training Data

文章中的“Medical Training Data”部分详细介绍了MEDITRON模型的医学训练数据来源和处理过程。核心要点包括：MEDITRON模型通过结合临床指南、PubMed论文摘要和全文、以及经验回放数据，构建了一个包含481亿令牌的领域适应性预训练语料库GAP-REPLAY。临床指南数据来自16个全球公认的来源，涵盖多种医学领域和资源设置，而PubMed数据则来自PubMed Central开放存取子集和非存档的开放存取PubMed论文。此外，通过经验回放，模型能够保留先前训练的知识，避免灾难性遗忘。这些数据经过精心收集和预处理，确保了文本内容的准确性和相关性，为MEDITRON模型在医学推理任务中的强大性能奠定了基础。

Engineering

文章中的“Engineering”部分主要描述了大规模训练大型语言模型（LLMs）所面临的工程挑战，以及为解决这些挑战而开发的Megatron-LLM分布式训练库。该库扩展了Nvidia的Megatron-LM，以支持包括Llama、Falcon和Llama-2在内的多种开源LLMs的预训练和微调。Megatron-LLM支持多种并行训练方式，如数据并行、流水线并行和Tensor并行，以及激活重计算和序列并行等技术，以提高训练效率。此外，文章还提到了训练MEDITRON模型所使用的硬件配置，包括16个节点，每个节点配备8个Nvidia A100 80GB GPU，以及网络和存储系统的配置。文章强调了3D模型并行（数据并行、流水线并行和Tensor并行）对于高效训练大规模模型的必要性。

Modeling

文章的“Modeling”部分详细介绍了MEDITRON模型的预训练和微调过程，以及在医学领域的应用。核心要点包括：首先，MEDITRON模型基于Llama-2语言模型，通过在特定医学数据集上的继续预训练来适应医学领域。预训练过程中采用了AdamW优化器、cosine学习率调度器和标准transformer架构，实现了高效的模型性能。其次，通过在医学推理基准数据集上的监督微调，MEDITRON模型进一步优化了其在医学任务上的表现。文章还提到了微调过程中使用的特定指令和数据集格式，以及在推理阶段采用的不同推理方法，如Top Token Selection、Chain-of-Thought和Self-consistency CoT，以提高模型的准确性和推理能力。最终，MEDITRON模型在多个医学基准测试中展现了出色的性能，证明了其在医学领域的有效性和应用潜力。

Medical Benchmarks

文章的Medical Benchmarks部分介绍了用于评估医学领域大型语言模型（LLMs）性能的四个主要基准数据集：MedQA、MedMCQA、PubMedQA和MMLU-Medical。这些数据集涵盖了医学知识的不同方面，包括医学执照考试问题、医学入门考试问题、基于PubMed摘要的问答以及医学和临床知识的多项选择题。文章强调了这些基准的挑战性，并提到了模型在不同选项设置下的训练和测试方法。此外，还提到了使用MedMCQA训练数据来评估模型对MMLU-Medical数据集的泛化能力。这一部分为后续的模型评估和比较奠定了基础。

Main Results

文章的Main Results部分展示了MEDITRON模型在多个医学任务上的性能评估，包括PubMedQA、MedMCQA、MedQA和MMLU-Medical等基准测试。结果显示，MEDITRON-7B和MEDITRON-70B模型在7B和70B参数规模上均优于其他开源预训练模型，如Llama-2、PMC-Llama-7B、Falcon-7B和MPT-7B等。特别是在70B规模上，MEDITRON-70B在所有测试基准上均超越了基础模型Llama-2-70B，并且在PubMedQA上表现尤为突出。此外，通过链式思维（CoT）和自一致性链式思维（SC-CoT）推理模式的引入，MEDITRON-70B的平均性能得到了进一步提升，超过了人类在MedQA上的及格分数。与商业大型语言模型（LLMs）如GPT-3.5、GPT-4、Med-PaLM和Med-PaLM-2相比，MEDITRON-70B在多项医学推理任务上展现出了竞争性，尽管其参数规模远小于这些商业模型。这些结果表明，MEDITRON模型在医学领域的推理能力上具有显著优势，并且通过持续预训练和推理策略的优化，其性能得到了有效提升。

Analysis

文章的Analysis部分核心要点是探讨了MEDITRON-70B模型在医学领域的表现，通过不同数据混合和训练方法的实验，分析了模型性能的提升。研究发现，使用包含PubMed Central、PubMed摘要和医学指南的GAP数据混合，并结合通用领域重放令牌（Replay tokens）的训练方法，能够显著提高模型在下游医学任务上的表现。此外，实验还表明，虽然代码数据在某些情况下能提升模型推理能力，但在当前模型规模下，加入代码数据并未改善医学基准测试的性能。最终，MEDITRON-70B模型在多项医学任务上超越了包括GPT-3.5在内的商业LLMs，展现了其在医学推理任务上的竞争力。

Related Work

文章的“Related Work”部分概述了医学领域大型语言模型（LLMs）的发展历程，强调了从早期基于编码器的模型（如BERT）到当前流行的自回归生成模型（如GPT和Llama）的转变。这些模型通过在大型生物医学语料库上进行预训练，提高了在生物医学和临床任务上的性能。随着模型和训练数据规模的扩大，研究显示在医学任务上的性能有所提升。例如，GatorTronGPT、Clinical-Camel和PaLM-2等模型在医学基准测试中取得了显著成绩。文章还提到了继续预训练的重要性，指出在特定领域数据上继续预训练可以提高模型在下游任务上的表现，特别是在医学领域，如PMC-Llama模型所示。文章的结论是，MEDITRON模型通过在高质量医学资源上的继续预训练，展示了在临床推理基准上的显著改进，接近了商业LLMs的性能，同时超越了所有开源的通用和医学LLMs。

Conclusion

文章结论部分的核心要点是：发布了名为MEDITRON的一系列医学领域适配的大型语言模型（LLMs），这些模型在医学推理和特定领域基准性能方面表现出色。通过在精心策划的高质量医学资源上进行持续预训练，包括一套新的临床指南，MEDITRON在临床推理基准测试中超越了所有同类规模的最新基准，与规模大8倍的商业LLMs性能接近。MEDITRON在所有医学基准测试中超越了所有开源的通用和医学LLMs。文章还开放了7B和70B规模的模型、用于策划训练语料库的工具以及分布式训练库，作为公开资源，旨在促进医学研究、改善患者护理和推动健康相关领域的创新。同时，文章提醒MEDITRON在安全应用方面尚未完全适应，建议在未经过广泛使用案例对齐和额外测试（包括在实际实践环境中进行随机对照试验）之前，不应用于医学应用。文章将MEDITRON作为研究资源发布，以促进医学应用中语言模型安全性的研究。