PubMed GPT ：用于生物医学文本的特定领域大型语言模型

最新推荐文章于 2025-02-14 11:03:09 发布

生信宝典

最新推荐文章于 2025-02-14 11:03:09 发布

阅读量985

点赞数

文章标签：语言模型人工智能深度学习自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzI5MTcwNjA4NQ==&mid=2247548023&idx=2&sn=60c65882a9aefec8d982da93f48e6a24&chksm=ec0ef9fddb7970ebcfea6535bcf1970c3faa75c2aae6e2fefc0e14942b1b71b25b25c93febf0&scene=126&sessionid=0

版权

PubMedGPT是CRFM和MosaicML合作开发的大型语言模型，专门针对生物医学领域训练。该模型在PubMed数据集上训练，显示了特定领域LLM的潜力和优秀性能。使用MosaicML云平台和Composer库进行训练，PubMedGPT在问答基准上表现出色，挑战了专业设计系统的性能。这标志着在生物医学文本理解和交互式AI系统发展上的初步成功。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

“我们很高兴发布一种在PubMed上训练的新生物医学模型，这是构建可支持生物医学研究的基础模型的第一步。”——CRFM主任Percy Liang

近日，斯坦福基础模型研究中心（CRFM）和MosaicML联合开发了PubMed GPT模型，一种经训练可以解释生物医学语言的大型语言模型。

目前的大型语言模型（LLM）通常使用于自然语言合成、图像合成及语音合成等，而已知在特定行业的应用很少。本文所要介绍的PubMed GPT即展示了特定行业大型语言模型的能力，尤其在生物医学领域。通过MosaicML云平台，CRFM的开发者在PubMed的生物医学数据集上训练了一个生成式预训练模型（GPT）。结果表明，特定领域的语言生成模型在实际应用中将会有很好的发展前景，同时，LLM也展现出更加优秀的性能和竞争力。注意：目前此模型仅用于研究开发，不适合生产。

PubMed GPT

模型。PubMed GPT 2.7B基于HuggingFace GPT模型，具有2.7B的参数和1024个标记的最大上下文长度。尽可能简单的设计展示了现有LLM训练方法的强大功能。

数据。采用Pile数据集的部分——PubMed Abstracts和PubMed Central。

计算。开发者选择在50B的令牌上多次训练PubMed GPT，达到一个较长的计算周期（300B）。结果表明，在数据受限的情况下仍可训练出优秀的LLM模型。

MosaicML云平台

MosaicML云。基于MosaicML云软件栈，开发者在具有128个NVIDIA A100-40GB GPU、节点间1600Gb/s网络带宽的集群上训练PubMed GPT，总训练时长约6.25天。

Composer库。由于MosaicML开源Composer库的高效性和包容性，开发者使用Composer库以及它的FSDP集成来训练模型。

流数据集。为快速、灵活且廉价地管理自定义训练数据集，开发者使用MosaicML的新StreamingDataset库来管理100GB多文本的训练数据集。

评估

开发者在几个问答基准上对PubMed GPT进行了评估。例如下面的一个医学问题摘要基准：