PubMed GPT : 用于生物医学文本的特定领域大型语言模型

PubMedGPT是CRFM和MosaicML合作开发的大型语言模型,专门针对生物医学领域训练。该模型在PubMed数据集上训练,显示了特定领域LLM的潜力和优秀性能。使用MosaicML云平台和Composer库进行训练,PubMedGPT在问答基准上表现出色,挑战了专业设计系统的性能。这标志着在生物医学文本理解和交互式AI系统发展上的初步成功。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

“我们很高兴发布一种在PubMed上训练的新生物医学模型,这是构建可支持生物医学研究的基础模型的第一步。”——CRFM主任Percy Liang

近日,斯坦福基础模型研究中心(CRFM)和MosaicML联合开发了PubMed GPT模型,一种经训练可以解释生物医学语言的大型语言模型。

44c09af2582705257dfcc186ee11eae3.png

目前的大型语言模型(LLM)通常使用于自然语言合成、图像合成及语音合成等,而已知在特定行业的应用很少。本文所要介绍的PubMed GPT即展示了特定行业大型语言模型的能力,尤其在生物医学领域。通过MosaicML云平台,CRFM的开发者在PubMed的生物医学数据集上训练了一个生成式预训练模型(GPT)。结果表明,特定领域的语言生成模型在实际应用中将会有很好的发展前景,同时,LLM也展现出更加优秀的性能和竞争力。注意:目前此模型仅用于研究开发,不适合生产。

PubMed GPT

模型。PubMed GPT 2.7B基于HuggingFace GPT模型,具有2.7B的参数和1024个标记的最大上下文长度。尽可能简单的设计展示了现有LLM训练方法的强大功能。

数据。采用Pile数据集的部分——PubMed Abstracts和PubMed Central。

计算。开发者选择在50B的令牌上多次训练PubMed GPT,达到一个较长的计算周期(300B)。结果表明,在数据受限的情况下仍可训练出优秀的LLM模型。

MosaicML云平台

MosaicML云。基于MosaicML云软件栈,开发者在具有128个NVIDIA A100-40GB GPU、节点间1600Gb/s网络带宽的集群上训练PubMed GPT,总训练时长约6.25天。

Composer库。由于MosaicML开源Composer库的高效性和包容性,开发者使用Composer库以及它的FSDP集成来训练模型。

流数据集。为快速、灵活且廉价地管理自定义训练数据集,开发者使用MosaicML的新StreamingDataset库来管理100GB多文本的训练数据集。

评估

开发者在几个问答基准上对PubMed GPT进行了评估。例如下面的一个医学问题摘要基准:

997d452376430f7fba0125f0978ac569.png

其对患者的疑问查询(其中会包含歧义、拼写错误等方面的信息)进行处理,并以清晰正确的格式呈现给医生。

5b772334be05841e1dc7f8c974bdcbac.png

同时开发者将结果与5个模型进行了比较(如上图):DRAGON、GPT-Neo 2.7B、Galactica、BioLinkBERT、PubMedBERT。结果证明:

1、LLM非常全能,在特定领域中从头训练时其具有与专业设计的系统相当的性能;

2、针对特定领域数据的预训练胜过通用数据;

3、专注模型可以用较少的资源获得高质量结果。

总结

PubMed GPT的结果只是生物医学文本及其他领域研究的第一步,往后仍需要更多研究者来开发更加先进的成果。而且目前只是概念验证,最终的希望是在未来出现值得信赖的交互式AI系统,在与人类专家进行筛选的同时也促进可靠的交互。

参考资料

https://www.mosaicml.com/blog/introducing-pubmed-gpt

往期精品(点击图片直达文字对应教程)

96659cd295db39ce40fdacae3a97f422.jpeg

22d83abdbfc2cfa5493e9147e9d23e51.jpeg

59ecd27502cfbe7bd63ee9f5c8331b0c.jpeg

60ce187a2ba225509cd74760932a0822.jpeg

3218b94d17672e667f2b8142295594a6.jpeg

74b54eaf93b4274a5001decbfd34442b.jpeg

afa01e4fc3e83de819f9df91464aa840.jpeg

e2f12ebf17ccd10adb65f506e9c68cbc.jpeg

4015e1ed39dea160e602538e4f16d71f.jpeg

3bb3aced96ecc3db61d6f9aad67ca88a.jpeg

24adcb979224374e86d2e7bcb9d24494.jpeg

a1ffc18ce021ce18d38ee96bbf17cbdc.jpeg

fd460214893cce577ef49a6e81b2dba6.png

df4eabafceed6c611b3d9cd18cca2cb5.png

a408f5037167c2c4fe4b42b8873f7e90.png

67e767966332db718df7e37c316e26ee.png

722b0ad11f864b3fc87bc2cc8d41e13a.jpeg

453fd2a49813566346eb6867512f0aef.jpeg

7768285daf90a0d79ee6a48a437949fd.jpeg

738b2713d28ad1d20e91d66faefb572a.jpeg

973060372cd523e1238572d1a4f9e8bd.png

b1bb7473e5e4e50e326ddf8f5bbc0ec0.png

e80c6220ba68c1b3dbf5095eb78344e5.jpeg

3f929990cd840ff7c362077871a5dbaf.png

1466e78682394d51a3a2a78145163ec1.png

8ab2cf11790008250e093ee427c2588e.jpeg

ba091c3f40e96c20c48cd024322a6c31.png

cc52909b46f38fce8536a6bd5e902251.png

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

24d7f7c14de06c9328e730ebade96cbf.jpeg

cc391bf4252e357831945f5d0eb05d62.jpeg

d003e71c3f1e85ddecb3f29fe5f48f5c.png

<think>嗯,用户问的是领域微调基座模型选择,我需要先理解这个问题。领域微调应该是指在特定领域上对预训练好的基座模型进行微调,比如医疗、法律或者金融这些领域。基座模型可能指的是像BERT、GPT这类大型预训练模型。用户可能想知道如何选择合适的基座模型来进行微调,以提升在特定领域的表现。 首先,我需要回忆一下领域微调的基本概念。微调(Fine-tuning)是指在一个预训练好的模型基础上,用特定领域的数据继续训练,使模型适应这个领域的任务。基座模型的选择很重要,因为不同的模型架构和预训练数据会影响微调的效果。 接下来要考虑用户可能的背景。用户可能是开发者或者研究人员,想要在自己的项目中应用模型,但不确定该选哪个基座模型。他们可能关心模型的大小、计算资源、数据量、领域适配性等因素。比如,如果数据量小,可能需要较小的模型;如果领域专业性强,可能需要选择在该领域有预训练的模型。 然后需要整理影响选择的因素。比如任务类型(文本分类、生成等)、领域相关性、模型规模、计算资源、数据量、微调策略等。每个因素都需要详细说明,比如任务类型不同,可能选择的模型结构也不同,像生成任务可能用GPT,而分类任务可能用BERT。 还需要介绍常见的基座模型,比如BERT、RoBERTa、GPT系列、T5等,以及它们的适用场景。比如BERT适合NLU任务,GPT适合生成任务,T5是文本文本的框架。另外,像领域特定的预训练模型,如BioBERT用于生物医学,LegalBERT用于法律,这些可能更适合对应领域的微调。 然后要考虑模型规模和计算资源之间的平衡。大模型效果可能更好,但需要更多计算资源,部署成本高。这时候可能需要权衡,选择适合自己资源的模型。 数据量也是一个关键点。如果领域数据充足,可能微调更大的模型更好;如果数据少,可能需要小模型或者采用数据增强、迁移学习等方法。 微调策略方面,除了全参数微调,还有参数高效微调方法,比如Adapter、LoRA等,这些可能帮助在资源有限的情况下进行微调,同时保持模型性能。 最后需要给出步骤建议,比如明确需求、评估资源、筛选模型、试验验证、持续优化等。可能还要提醒用户注意预训练数据的领域覆盖情况,以及模型的可解释性和部署需求。 需要确保回答结构清晰,分点说明,帮助用户一步步理清思路。同时要检查是否有遗漏的重要因素,比如多语言支持、模型的开源许可等可能也是用户需要考虑的。 还要注意使用正确的中文术语,比如“微调”、“预训练模型”、“领域适配”等,避免专业术语错误。同时保持语言口语化,让用户容易理解。</think>领域微调(Domain Fine-tuning)是提升基座模型在特定领域表现的核心方法。以下是选择基座模型的系统化思考框架和关键步骤: --- ### 一、核心选择维度 1. **任务匹配性** - **文本理解任务**(如分类、实体识别):优先选择编码器架构(如BERT、RoBERTa) - **生成任务**(如文本生成、对话):解码器架构(如GPT系列、LLaMA)或编解码架构(如T5)更优 $$ \text{模型适用性} = f(\text{架构特性}, \text{任务需求}) $$ 2. **领域相关性** - 检查预训练语料组成(如GPT-3包含书籍、网页等通用语料) - 优先选择有领域预训练的变体(例如: - 生物医学:BioBERT ($\text{PubMed+PMC}$语料) - 法律:Legal-BERT ($\text{法院文书+法律条文}$) - 金融:FinBERT ($\text{财经新闻+财报}$)) 3. **规模权衡** | 模型参数 | 适用场景 | 硬件需求 | |---|---|---| | <3B | 快速迭代/有限算力 | 单GPU可训练 | | 7B-13B | 平衡性能与成本 | 多GPU并行 | | >20B | 数据充足/追求SOTA | TPU集群 | --- ### 二、关键评估指标 1. **领域困惑度(PPL)** 在领域验证集上测试未微调模型的困惑度,反映原始知识覆盖度: $$ PPL = \exp\left(-\frac{1}{N}\sum_{i=1}^N \log p(w_i|w_{<i})\right) $$ 2. **迁移学习效率** 通过小样本实验(如5%领域数据)观察: - 损失下降速度 - 验证集准确率提升斜率 3. **领域词表覆盖** 统计领域专业术语在模型tokenizer中的未登录词(OOV)比例: $$ \text{OOV\%} = \frac{\text{领域术语未匹配数}}{\text{总术语数}} \times 100 $$ --- ### 三、典型优化路径 ```mermaid graph LR A[原始基座模型] --> B{领域适配分析} B -->|高OOV| C[增量预训练] B -->|低PPL| D[直接微调] C --> E[动态词表扩展] D --> F[参数高效微调] E --> G[领域适配模型] F --> G ``` 1. **增量预训练** - 适用场景:领域术语密度 > 15% - 训练策略: - 80%掩码语言建模(MLM) - 20%领域特定目标(如医学实体预测) 2. **参数高效微调** - LoRA(Low-Rank Adaptation): $$ W' = W + \Delta W = W + BA^T $$ 其中 $B \in \mathbb{R}^{d \times r}$, $A \in \mathbb{R}^{r \times k}$,秩 $r \ll d$ - 内存消耗降低60-70%,适合7B以上模型 --- ### 四、实践建议 1. **资源受限时**:选择领域相近的小模型(如Legal-BERT-base) 2. **数据充足时**:采用LLaMA-2 13B + LoRA微调 3. **专业领域**:组合使用检索增强(RAG)+ 微调模型 **典型案例**: 某金融公司微调流程: 1. 测试GPT-3/ChatGLM-6B/BLOOM的PPL 2. 选择PPL最低的ChatGLM-6B 3. 采用QLoRA(4bit量化)在3090显卡微调 4. 最终领域任务准确率提升27.6% --- ### 五、风险控制 1. **领域漂移检测**:监控微调后模型在通用任务的表现 2. **灾难性遗忘**:采用弹性权重固化(EWC)正则化 $$ \mathcal{L} = \mathcal{L}_{\text{task}} + \lambda \sum_i F_i (\theta_i - \theta_{0,i})^2 $$ ($F_i$为Fisher信息矩阵) 选择基座模型需要综合评估领域特性、计算资源和业务需求,建议通过控制变量法进行AB测试验证。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值