行业大模型训练经验分享&落地思考_行业大模型训练

最新推荐文章于 2025-02-26 19:41:41 发布

爱喝白开水a

最新推荐文章于 2025-02-26 19:41:41 发布

阅读量1.2k

点赞数 9

文章标签：人工智能大语言模型 ai大模型 LLM 大模型训练行业大模型计算机技术

本文链接：https://blog.csdn.net/python123456_/article/details/140552456

版权

大家好，行业大模型一直是大家关注的内容，恰逢我司也做了行业知识大模型，借此机会聊一聊行业大模型训练Trick以及行业大模型落地想法。

但有些并没有什么理论依据，全是自己的实验经验&结论，可能跟大家有所不同。

行业大模型训练Trick

一、行业技术标准文档或行业相关数据是行业模型Continue PreTrain的关键。

现有大模型在预训练过程中都会加入书籍、论文等数据，那么在行业预训练时这两种数据其实也是必不可少的，主要是因为这些数据的数据质量较高、行业强相关、知识覆盖率（密度）大，可以让模型更适应考试。当然不是说其他数据不是关键，比如行业相关网站内容、新闻内容都是重要数据，只不过个人看来，在行业上的重要性或者知识密度不如书籍和技术标准。

二、行业数据训练后，往往通用能力会有所下降，需要混合通用数据以缓解模型遗忘通用能力。

如果仅用行业数据进行模型训练，模型很容易出现灾难性遗忘现象，通常在行业训练过程中加入通用数据。那么这个比例多少比较合适呢？目前还没有一个准确的答案，BloombergGPT（从头预训练）预训练金融和通用数据比例基本上为1:1，ChatHome（继续预训练）发现行业：通用数据比例为1:5时最优。个人感觉应该跟行业数据量有关，当数据量没有那多时，一般数据比例在1:5到1:10之间是比较合适的。

请添加图片描述

三、行业模型Continue PreTrain时可以同步加入SFT数据，即MIP，Multi-Task Instruction PreTraining。

预训练过程中，可以加下游SFT的数据，可以让模型在预训练过程中就学习到更多的知识。例如：T5、ExT5、Glm-130b等多任务学习在预训练阶段可能比微调更有帮助。并且ChatHome发现MIP效果在行业上评测集上绝群。

请添加图片描述

四、仅用SFT做行业模型时，资源有限就用在Chat模型基础上训练，资源充足就在Base模型上训练。（资源=数据+显卡）

跟很多人讨论过一个问题，就是我们在SFT的时候是在Base模型上训练还是在Chat模型上训练。

其实很简单，如果你只有5k数据，建议你在Chat模型上进行微调；如果你有10w数据，建议你在Base模型上进行微调。因为你不知Chat模型在SFT时的数据质量如何，当自己有能力时，靠人不如靠己。

五、在Chat模型上进行SFT时，请一定遵循Chat模型原有的系统指令&数据输入格式。

如果你在Chat模型上进行SFT的时候，请跟Chat模型的输入格式一致，否则当你数据量不足时，可能会导致训练效果不明显。并且建议不采用全量参数训练，否则模型原始能力会遗忘较多。

六、行业评测集时必要内容，建议有两份，一份选择题形式自动评测、一份开放形式人工评测。

一定要有自己的行业数据集来验证模型效果，来选择最好的checkpoint。选择题形式可以自动评测，方便模型进行初筛；开放形式人工评测比较浪费时间，可以用作精筛，并且任务形式更贴近真实场景。

七、行业模型词表扩增是不是有必要的。

个人感觉，行业词表扩增真实解决的问题是解码效率的问题，给模型效果带来的提升可能不会有很大。（这里行业词表扩充是指在同语言模型上扩充词表，而不是英文模型的中文汉化）

八、所谓的行业大模型会更新的越来越快，越来越多。

由于很多人&公司并没有资源搞底座，因此需要在现有底座模型上进行增量预训练、微调等。而以目前各厂（ChatGLM、BaiChuan、Qwen、Llama）抢占开源社区占比的架势，感觉会有很多7B、13B级别模型开源。

请等待一言、ChatGPT开源小模型的一天，说不定GPT5出来的时候，Openai会开源个GPT3.5的小版本模型。

行业大模型落地的想法

一、常说通用模型的行业化可能是伪命题，那么行业大模型的通用化是否也是伪命题。

自训练模型开始，就一直再跟Leader Battle这个问题，行业大模型需不需要有通用化能力。就好比华为盘古大模型“只做事不作诗”的slogan，是不是训练的行业大模型可以解决固定的几个任务就可以了。

个人的一些拙见是，如果想快速的将行业大模型落地，最简单的是将系统中原有能力进行升级，即大模型在固定的某一个或某几个任务上的效果超过原有模型。

以Text2SQL任务举例，之前很多系统中的方法是通过抽取关键要素&拼接方式来解决，端到端解决的并不是很理想，那么现在完全可以用大模型SQL生成的能力来解决。在已有产品上做升级，是代价最小的落地方式。就拿我司做的来说，在解决某行业某场景SQL任务上效果可以达到90%+，同比现有开源模型&开放API高了不少。

当然还有很多其他任务可以升级，例如：D2QA、D2SPO、Searh2Sum等等等。在这里插入图片描述