解读自然语言处理的2020年：“大力出奇迹”的GPT-3证明了大算力、大模型的价值

最新推荐文章于 2023-02-24 20:55:02 发布

iFlyAI

最新推荐文章于 2023-02-24 20:55:02 发布

阅读量826

点赞数

分类专栏：人工智能竞赛人工智能深度学习文章标签：算法大数据编程语言机器学习人工智能

本文链接：https://blog.csdn.net/iFlyAI/article/details/112184248

版权

人工智能同时被 3 个专栏收录

121 篇文章 7 订阅

订阅专栏

人工智能竞赛

110 篇文章 14 订阅

订阅专栏

深度学习

86 篇文章 1 订阅

订阅专栏

Fly-AI竞赛服务平台 flyai.com

在开始学习之前推荐大家可以多在 FlyAI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

摘要: 近几年，自然语言处理遵循一个规律或者说方法论，大部分在做 Pre-training（预训练），用更复杂的模型、更大的数据量、更多的计算资源进行模型预训练。然后针对领域或者特定任务进行 Fine tuning（微调），还会遇到 ...

概述

近几年，自然语言处理遵循一个规律或者说方法论，大部分在做 Pre-training（预训练），用更复杂的模型、更大的数据量、更多的计算资源进行模型预训练。然后针对领域或者特定任务进行 Fine tuning（微调），还会遇到解决样本量不足、小样本等问题。在落地应用时，如果使用前期预训练非常大的模型，对计算资源依赖度又非常高，如何通过知识蒸馏得到小模型，最后将小模型应用到实际领域，也是学术界和工业界重点研究的方向。具体而言：

1. 模型的轻量化：让深度学习模型能够在硬件资源不足的移动端设备使用。

基于知识蒸馏的预训练语言模型压缩：小模型通过拟合大模型的行为，完成知识迁移，主要包括 MiniLM(2020)，MobileBERT(2020) 等模型。

基于剪枝的预训练语言模型压缩：基于一定的准则，比如重要性排序，去掉参数矩阵中冗余的部分，主要包括非结构化剪枝 Compressing BERT(2020)，面向层的剪枝 Poor Man`s BERT(2020) 模型。

基于量化的预训练语言模型压缩：通过减少数值所需要的比特数来降低模型的大小，主要包括参数矩阵选择 2 或者 3bit，activation 采用 8bit 的 QBERT(2019) 模型和参数矩阵和词向量采用 2bit，activation 采用 8bit 的 TernaryBERT(2020)。

2. 融入知识的预训练语言模型：将外部的知识融入预训练的语言模型。

基于知识图的支持知识的语言表示模型 K-BERT(2019)，该模型将三元组作为领域知识注入到句子中。

通过 Knowledge Attention and Recontextualization component 将知识库里的结构化信息融入大规模预训练模型 Know-BERT(2019)。

在预训练语言模型中加入实体的同时也加入它的上下文，CoLAKE(2020) 模型允许模型在不同语境下关注实体的不同邻居，同时学习文本和知识的上下文表示。

从商业视角看，自然处理领域多年来已经吸引了很多公司的投入。无论体量大小，这些投身者都找到了生存空间。根据多年观察，于政表示，在自然语言处理领域进行投资的公司主要有三类：互联网大厂，NLP 创业公司，传统巨头。

具体而言，互联网大厂主要做平台研发，发布预训练模型，依托强大算力、海量数据、超大规模的计算集群来训练更大、更复杂的模型，从而形成技术壁垒；NLP 创业公司，受限于自身算力限制，不会将资源放在训练更大、更复杂的预训练模型，而是基于开源社区、互联网大厂的预训练模型，聚焦在垂直赛道开发相关的 NLP 模型或应用；NLP 创业公司则比互联网大厂更专注，效果更好，在技术先进和前沿性上或优于传统行业巨头；传统行业巨头受益于开源社区的贡献，NLP 门槛的逐步降低，未来有可能自建研发团队，做适合自身行业需求和特点的应用，但是这些团队技术经验积累和 NLP 创业公司、互联网大厂相比有一些差距。

具体到 2020 年，于政表示：“这一年，学术界和工业界对自然语言处理的理解和认知更进一步，在追求更大的模型，更广的参数，以及模型和数据的使用效率方面逐步做到了极限。”

GPT-3 的发布证明了现有技术的可扩展性

2018 年，BERT 诞生，其在 11 项 NLP 任务上达到较高水平，被认为开启了自然语言处理的新篇章。BERT 一个革命性的工作是将 Transformer 的架构引入了预训练语言模型，并开启了 Pretraining-Finetuning 的框架，这让 2019 年涌现了一大批有效、实用并且带给人启发的预训练语言模型方面的成果。根据介绍，该框架在预训练阶段基于大规模无监督语料进行两个预训练任务，分别是词级别和句子级别的，一个是 MLM（Masked Language Modeling），另外一个是 NSP（Next Sentence Prediction），MLM 是从一个部分被 Mask 的句子恢复这些被 Mask 掉的确实词，NSP 是判断一个句对是不是上下句，从而获取基于上下文的词和句子的表示。在 Finetune 阶段，针对具体的下游任务，BERT 会微调中间层参数以调整词的 Embedding 以及调整预测层的参数，成功的将预训练学到的词和句子的表示迁移到下游任务中，实现了对低资源任务的有效支撑。

在于政看来，自 BERT 问世，大部分自然语言处理模型基本遵循了类似结构，以 Transformer 或者 attention 的模型机制进行相关变化。从 GPT-1 到 GPT-2，再到 GPT-3 又让大家逐步认识到增大数据量、模型，以计算流的方式将计算发挥到极致，可以解决很多问题。当前，学术界、工业界的趋势之一是如何用更大的数据训练更复杂的算法系统去解决相关问题。但是，面对领域、细分行业的特殊任务，大的模型并不适用，要基于 pre-training 模型做领域的 fine-tuning。具体而言：

基于 BERT 的模型压缩，让小模型在训练过程从大模型的嵌入层、注意力矩阵以及输出层学习知识，通过减少 transformer 层数获得更快的推理速度，同时模型的精度损失有限。

基于知识图谱的 BERT 模型，BERT 在大规模的通用语料上做预训练，但是在特定领域下效果不好，通过将特定领域知识图谱的信息融入 BERT，获得特定领域的 BERT 模型。

在 2020 年，GPT-3 的论文一经发表就引发了业内轰动，因为这一版本模型有着巨大的 1750 亿参数量。事实上，GPT-2 凭借将近 30 亿条参数的规模已经在 2019 年拿下了“最强 NLP 模型”的称号，而 GPT-3 更甚：放大了 100 倍（96 层和 1,750 亿个参数），并且接受了更多数据的训练（CommonCrawl，一个包含大量 Internet 的数据库，以及一个庞大的图书库和所有 Wikipedia），支持的任务广泛且旨在测试快速适应不太可能直接包含在训练集中的任务的几个新任务。

于政表示，GPT-3 是一种自回归模型，基于单向 transformer，采用只有解码器的体系结构，使用下一个单词预测目标进行训练。GPT-3 属于少样本学习语言模型，只需要少量标注数据，不管是 Zero-shot、One-shot 还是 Few-shot 都无需再进行微调。GPT-3 聚焦于更通用的 NLP 模型，主要目标是用更少的领域数据、且不经过精调步骤去解决问题。简单来说，GPT-3 是 GPT-2 的进化版，惊人的模型参数、训练数据和工作量以及结果证明了 “大力出奇迹” 的道理，扩展了 NLP 领域的想象力。虽然，GPT-3 没有在研究方面推动全球发展，但证明了现有技术的可扩展性，也积累了大模型训练经验。

未来展望

目前，自然语言处理领域较为成熟的方向是传统任务，比如文本分类、情感分析和机器翻译。在商业销售领域，还存在一些对认知能力要求高，技术挑战大的场景，比如话术分析，自然语言生成、理解、问答等，这些场景将产生巨大的商业价值，这也是明略科技重点投入的研发领域。

此外，于政表示，多模态自然语言处理肯定是未来的重要方向之一。人工智能领域发展到现在，已经有很多无法通过单一数据解决的问题出现。工业界比较热的数据中台、知识图谱解决的核心问题之一就是打通多源异构数据，将数据和知识链接起来，进而发挥数据价值，从这个维度看，多模态自然语言处理技术将发挥重要作用。例如：在对话系统场景下，多模态模型能够融合并理解用户输入的图片、文本和语音等信息，并以多模态的形式进行回复，多模态技术能给用户带来丰富的交互体验。在语音交互场景下，通过声学信号和文字信号，能够准确地识别用户交流中的情绪变化等。

未来几年，上述挑战将是自然语言处理领域重点发展和探索的方向，只要其中的相关技术得到解决，对学术界、工业界的贡献将是巨大的。

更多深度学习竞赛项目，大家可移步官网进行查看和参赛！

更多精彩内容请访问FlyAI-AI竞赛服务平台；为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台；每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。

挑战者，都在FlyAI！！！

iFlyAI

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
解读自然语言处理的2020年：“大力出奇迹”的GPT-3证明了大算力、大模型的价值

Fly-AI竞赛服务平台 flyai.com在开始学习之前推荐大家可以多在FlyAI竞赛服务平台多参加训练和竞赛，以此来提升自己的能力。FlyAI是为AI开发者提供数据竞赛并支持GPU离线训练的一站式服务平台。每周免费提供项目开源算法样例，支持算法能力变现以及快速的迭代算法模型。摘要: 近几年，自然语言处理遵循一个规律或者说方法论，大部...
复制链接

扫一扫

专栏目录