澜舟孟子轻量化预训练模型技术实践｜ NLP 前沿实践

澜舟孟子开源社区

于 2022-07-29 14:41:09 发布

阅读量499

点赞数

分类专栏：认知智能-NLP前沿观点文章标签：自然语言处理人工智能深度学习

本文链接：https://blog.csdn.net/langboat_mengzi/article/details/126055416

版权

本文介绍了澜舟科技在大模型轻量化方面的实践，包括语言学知识增强、训练优化技术、模型压缩、检索增强和多任务。通过这些方法，澜舟成功提升了孟子Mengzi模型的性能，并在机器翻译、智能辅助写作和文档处理等场景中实现应用。此外，还开源了孟子Mengzi模型，以促进NLP领域的技术发展。

摘要由CSDN通过智能技术生成

在上周发布的《一文看懂预训练最新进展》中，澜舟科技创始人兼 CEO 周明和澜舟科技大模型技术负责人王宇龙分享了大模型技术发展背景和近期百花齐放的大模型及新应用、新趋势。本文继续为大家深入介绍“大模型轻量化”趋势以及澜舟的 5 个实践路径。

以下内容根据澜舟科技算法研究员华菁云在「澜舟NLP分享会」演讲整理。全文约 4800 字，预计阅读时长 6 分钟。

为什么要训练轻量化模型？

人们普遍认为，在相同网络架构和训练方法下，模型层数增加、模型参数增加，能力就一定增强，实际上增强的幅度越来越小。大家都知道摩尔定律，硬件逐年价格下降 1.5 倍，运算能力提升 1.5 倍，但是实际上模型参数量每年增加至少 7 倍，硬件能力的提升显然赶不上模型规模的增长。

如图 1 右侧所示，训练一个大模型代价是巨大的，GPT-3 训练需要 460 万美金，此外，大模型落地部署的代价也极大，在工业界实际应用中不得不考虑部署的成本。所以在摩尔定律逐渐走向终结的今天，模型轻量化是必须要考虑的。

图 1

轻量化路径

1. 语言学知识增强

使用语言学知识作为显性的知识信号可以使得模型在预训练的过程中获取到更多的先验信息，在同等参数量下，融入更多的语言学知识。 我们使用 SpaCy 对语料进行词性标注（POS）和命名实体识别（NER），将识别的目标标签作为预测目标用于训练，让模型在语言建模的同时，去计算 POS 与 NER 的预测损失与原始语言建模损失相加得到的最终损失。这个方法可以在各数据集上带来一致的提升。

如图 2 下半部分表格，大家可以看到孟子 Mengzi 模型对应的分数的提升还是比较明显的。

图 2

此外，为了建模句子间的关系，我们结合了 ALBERT 提出的句子顺序预测 SOP 任务，发现也能带来明显的性能提升。而类似的下一句预测 NSP 任务在各项中文任务上的提升不太明显（如图 3 表格所示）。

图 3

2. 训练优化技术

传统基于掩码的预训练方法（Mask Language Model, MLM) 首先通过 ennoising 的方法，例如通过 mask 来构建训练样本，然后训练语言模型去还原被破坏的句子。由于通常采用随机的破坏方法，样本预测的难易度不同，模型在 denoising 训练时的梯度更新强度与样本难度之间缺乏一致性，可能会造成训练不稳定的问题。

此外，也会带来一些假负例，即模型会还原出来与原始句子不同，而实际上也合法的句子。模型通常采用交叉熵训练，这类样本则都会被判断为错误预测，导致训练事实上是不准确的。