京东言犀：场景中诞生的高效大模型

京东云开发者

于 2022-08-15 10:00:28 发布

阅读量727

点赞数

文章标签：大数据机器学习人工智能深度学习 java

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1OTgxMTg2Nw==&mid=2247502368&idx=1&sn=c490ffddf1b832208ab293265454d7e5&chksm=fc131654cb649f427a9d7897f1bc7ada3a8a2424e6ab9f610f2744c3638c33e2b0ccf791f986&scene=126&&sessionid=0

版权

在深度学习和大数据推动下，自然语言处理技术发展迅速，大模型应用广泛，但存在计算量和内存需求大、推理速度慢的问题。京东言犀团队提出细、粗粒度混合自注意力机制（FCA），在7项自然语言理解任务上提升推理速度一倍以上，准确率损失<1%，且在多领域有技术成果和落地应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在深度学习和大数据的支撑下，自然语言处理技术迅猛发展。而预训练语言模型把自然语言处理带入了一个新的阶段，得到了学界和工业界的广泛关注。

谷歌于2018年提出的基于大数据量大参数量的自监督预训练语言模型（亦叫Foundation Model或者大模型）BERT获得的成功让人工智能技术的研究和应用进入了一个全新的阶段，主要体现在三个方面：

第一：大模型的参数量每年以接近10倍的速度增长。2018年提出的BERT参数量是3亿，2021年模型参数已经突破万亿。

第二，大模型显著降低了模型研发的成本、提高了模型的精度上限：大模型在大量无标注数据上通过自监督预训练的方式提供了一个良好的基础模型，再在少量的任务相关的人工精标数据上微调（Fine-tuning），可以显著解决模型研发过程中人工标注成本高、周期长、准确率不高等问题，同时提高了模型的精度。

第三，基于Transformer网络结构的大模型已经从自然语言处理领域延展至计算机视觉、语音识别、跨模态信息处理等多个AI领域。

大模型与场景相结合，已广泛应用于智能客服与营销、搜索、推荐等应用。然而，大模型的核心网络架构Transformer中的多头自注意力机制（Self-Attention Mechanism）的计算复杂度与模型输入序列的长度呈平方阶关系，即O(L^2)。这导致大模型在实际应用过程中计算量和内存需求过大，推理速度缓慢，限制其实际应用，尤其对于计算资源有限的场景，例如移动设备、AIoT等。

以首个大规模预训练语言模型BERT为例，在单条输入文本包含100个字时，其基础版本BERT-base的浮点计算量（FLOPs）达到3G，推理时间在CPU上约为700毫秒，GPU上约为400毫秒。这样的计算消耗让大模型许多场景下应用困难，例如要求实时交互的智能客服、搜索等。

为了解决上述问题，京东言犀团队提出了一种细、粗粒度混合自注意力机制（FCA）替代大模型中的自注意力机制。FCA在7项自然语言理解任务上，将大规模预训练语言模型推理速度提升一倍以上，准确率损失<1%。该文发表在ACL 2022。

论文标题：Fine- and Coarse-Granularity Hybrid Self-Attention for Efficient BERT

论文链接：https://arxiv.org/pdf/2203.09055.pdf

作者：Jing Zhao, Yifan Wang, Junwei Bao, Youzheng Wu, Xiaodong He

如何提高模型推理效率一直是研究的热点。细分方向包括（1）通过改进模型结构，减少需要激活的神经元数量，进而提高模型的计算效率；（2）通过模型蒸馏，将大模型中的知识迁移到小模型中；（3）通过模型量化，将计算过程中的浮点运算转化为整数运算，从而减少内存消耗，提高推理速度。我们提出的方法FCA定位于（1）类方向，原因在于（2）类方法通常依赖于外部的大模型知识，（3）类方法需要底层硬件支持以及复杂的工程实现。而我们的方法是完全自驱动的，易实现且可拓展性强。

主要思想：

大规模语言模型通常由自下而上的多层自注意力计算层堆叠而成，例如BERT-base由12层组成。因此，提高大规模语言模型推理速度的重点在于自注意力机制的计算效率提升。如前文所讲，自注意力机制的计算复杂度与输入序列的长度呈平方阶关系。因此，FCA的出发点为通过逐层缩短自注意力机制的输入序列长度来减少语言模型的计算量。

具体而言，FCA在注意力计算层之间插入了一个神经元信息度评分模块。该模块负责将输入序列中包含的神经元划分为高信息度神经元和低信息度神经元。高信息度神经元由于保留了模型大部分信息，我们维持其结果不做任何更改。而低信息度神经元会被聚合为一个或数量极少的几个神经元来参与下一层注意力计算。如图1所示，以两层注意力计算层为例，评分模块将第一层的10个神经元划分为橙色的4个高信息度神经元和蓝色的6个低信息度神经元。低信息度神经元被聚合为1个神经元送入下一计算层。最终，输入到第二层注意力计算层的神经元只有4+1=5个。标准大规模语言模型每层的序列长度都是恒定且相等的，而FCA通过对神经元的差异化处理，逐步减少了每层的序列长度。在7个数据集上的实验结果表明，FCA-BERT相较于BERT来说，在预测精度几乎不下降的情况下，推理速度提升一倍以上。

图1：模型框架图

实验结果：

实验任务包含文本相似度判断、情感分类、自然语言推断以及问答等。表1为计算速度指标FLOPs在各数据集上的结果，表2为各测试集上的预测准确度结果。结果显示，与原始 BERT 相比，带有 FCA 的 BERT 实现了 2 倍的 FLOPs 减少，且准确度损失 <1%。从表1来看，FCA与现阶段先进的知识蒸馏加速方案相比，加速效果有部分提升。从表2来看，相较于其他基线模型，FCA的预测准确性有显著提升。结合两个表格的实验结果，证明了FCA 在准确性和效率性之间提供了更好的权衡。

表1：各模型浮点计算量

表2：各模型预测准确率

这仅仅是京东言犀团队丰硕技术成果的冰山一角。在7月13日举行的京东云峰会上，定位于“最懂产业的人工智能应用平台”京东言犀2.0全新升级发布。言犀在京东内外部产业实践中衍生了众多技术成果，尤其是在自然语言处理和多模态交互技术领域，先后斩获了WikiHop（2019）、HotpotQA（2021）、QuAC（2020，2021）、DocRED (2021)、DROP（2022）6项国际AI竞赛冠军。其中在WikiHop数据集上，以74.3%的准确率首次超越该数据集官方发布的人类表现水平74.1%的准确率。随着元宇宙趋势不断深化，言犀加强了在数字人领域的技术突破，一举获得ACM Multimedia 2021大会最佳演示奖，还通过了信通院首批数字人系统基础能力评测。

目前，言犀已在政务、金融、交通、物流、零售、制造业等多个行业大规模落地，将前沿技术应用于客户服务的全链路全环节，助力千行百业实现服务和营销的数字化、智能化转型。

-End-

▶►更多了解◄◀