大语言模型垂直化训练技术与应用

最新推荐文章于 2025-03-27 11:52:20 发布

科技之歌

最新推荐文章于 2025-03-27 11:52:20 发布

阅读量1.6k

点赞数 39

分类专栏：大模型文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/kunpengtingting/article/details/140304343

版权

大模型专栏收录该内容

33 篇文章

订阅专栏

在人工智能领域，大语言模型（Large Language Models, LLMs）已经成为推动技术进步的关键力量，垂直化训练技术逐渐成为研究的热点，它使得大模型能够更精准地服务于特定行业和应用场景。本文结合达观数据的分享，探讨大语言模型的垂直化训练技术及其在不同领域的应用实践。
在这里插入图片描述

大语言模型的垂直化训练：定义与重要性

垂直化训练技术指的是针对特定行业或应用场景，对大语言模型进行定制化训练，使其能够更好地理解和生成特定领域的内容。这种训练方式的重要性在于，它能够提高模型在特定任务上的表现，同时减少对通用数据的依赖。
垂直领域AIGC应用的关键点

对现有的GPT模型进一步挖掘潜力，生成更有性价比的垂直大模型方案
对优质训练数据的蒸馏加工，更好的体现垂直化、专业化的应用
为toB客户量身打造好的大模型方案，探索更好的效果和高价值应用场景
针对垂直应用场景，值得探索prompt等产品创新和功能增强

垂直化训练的难点

数据专业性：需要获取和处理大量高质量的专业领域数据。
模型泛化能力：在提升特定领域能力的同时，保持模型在通用任务上的表现。
资源投入：相较于通用模型训练，垂直化训练可能需要更多的领域专家参与和更精细的数据处理。

大语言模型的垂直化训练技术

参数规模与数据规模的探索

Scaling Laws：研究表明，模型的效果与参数量、数据量、计算量呈幂次关系，即模型参数量和训练数据量的增加可以显著提升模型性能。
Compute-Optimal：研究提出，训练数据大小应与模型参数量等比放大，以达到最优的计算效率。
Open and Efficient：例如，Meta推出的LLaMA模型显示，即使在百亿参数规模，经过大量数据训练后，模型性能仍有显著提升。

在这里插入图片描述
研究给出了三种最优计算方式，并且比较了如GPT-3(175B)等千亿模型并没有达到该理论的计算最优点。意味着GPT-3仍未被充分训练(下图)
换言之，当下的干亿参数模型，可能只发挥到了百亿模型的理论效果，一些参数可能被浪费了。
在这里插入图片描述
同时可以看到在训练过程中，无论是65B、33B、17B，甚至7B的小模型，在训练数据接近和超过万亿Token之后，下游任务的效果仍在提升(下图)。故此可推测，百亿模型的潜力仍有待深入挖掘，尤其在算力资源受限的情况下存在性价比更高的优化空间
在这里插入图片描述

垂直领域预训练路线

垂直领域大模型预训练的三种思路
在这里插入图片描述

自适应预训练

路线1：先大规模通用语料预训练，再用小规模领域语料预训练。在大规模通用语料预训练的基础上，使用小规模领域语料进行二次训练，以提升模型在特定领域的表现。
代表模型 GPT3-Codex、Yuyuan-GPT2-3.5B、金融领域FinBERT、生物医学领域BiOBERT等
领域自适应预训练(Domain-Adaptive Pre-Training,DAPT):在模型预训练权重上喂领域语料继续预训练
任务自适应预训练(Task-Adaptive Pre-Traininq,TAPT):在领域任务数据集上继续预训练
在这里插入图片描述

OpenAI 探索:当涉及与Code领域无关的文本生成时，Codex的生成和GPT-3的生成差异不大，体现在两者有很多共现的词，区别在于GPT3表述的多样性。
在这里插入图片描述

有可能是小规模领域语料预训练后的大模型在自身领域内相比通用大模型增强，而在通用生成上表现与通用大模型相当

直接大规模领域语料预训练

路线2:直接进行大规模领域语料预训练
代表模型：医学领域PubMedGPT2.7B、金融领域BBT-FinT5
数据规模百亿~干亿tokens
模型规模1B~10B
在这里插入图片描述

垂直领域大模型在领域上的各任务上通用性 >>小模型
垂直领域大模型在领域任务上效果 >相同规模的通用大模型再finetune
垂直领域大模型所用资源<<通用大模型(数据规模和模型规模)，就能达到和超大规模模型在领域上接近的效果

领域语料混合训练

路线3：通用语料比例混合领域语料同时预训练，尚无明确的此类模型。
在这里插入图片描述

微调技术探索

增量微调（Delta-tuning）

只更新模型中的少量参数，以降低微调成本，同时保持模型性能。
目标：降低大模型微调成本。由于模型规模的增大，传统微调的方法变得难以实现。更高效率的微调方式，因而称之为增量微调(Delta-tuning)的方法被提出。
方法：Delta tuning只更新少量参数，同时冻结其余占绝大多数的参数。这些年来的研究中，以下几种方法较有代表性：

Adapter tuning:在PLM的层之间插入适配器模块，并且只有这些插入的模块在微调期间得到更新。
Prefix tuning:通过更新预先插入的参数来调整PLM
Prompt tuning:更新任务特定的可训练参数
BitFit:只更新PLM中的偏差项，同时冻结PLM其余参数。
LORA:将注意力权重梯度分解为低秩矩阵，以减少可训练参数的数量。

在这里插入图片描述
结果显示，delta tuniq和fine tuning之间的差距并非不可逾越，这证明了参数有效自适应的大规模应用的潜力。

多任务提示/指令微调

目标：提升语言模型在多任务中的零样本推理能力。
方法：在多任务数据集上进行微调。微调后的语言模型具有很强的零任务概括能力。
在这里插入图片描述

多任务微调也是很多大模型的常用手段。

COT（Chain-of-Thought）微调

目标：使小语言模型获得思维链能力。
大模型的思维链能力，指的是一步一步地展示推理过程能力。但是，研究者发现，小语言模型(通常小于100B)几乎很难获得这种能力。
为了使小模型也拥有思维链的能力，多个研究使用大模型GPT3，PaIM作为教师模型进行训练，使学生模型T5和fanT5获得了一定的思维链能力。在这里插入图片描述
方法:
1.将文本(questions + prompt)输入给大模型
2.用大模型输出含有思维链且正确的文本作为label
3.用上述数据组成的数据对(右图Reasoning samples)，直接对小模型进行微调