论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

最新推荐文章于 2024-05-29 08:45:00 发布

Isawany

最新推荐文章于 2024-05-29 08:45:00 发布

阅读量276

点赞数 1

分类专栏：论文阅读文章标签：论文阅读语言模型 bert paddlepaddle 文心一言

本文链接：https://blog.csdn.net/weixin_38124427/article/details/130683593

版权

论文阅读专栏收录该内容

80 篇文章 3 订阅

订阅专栏

论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

1. 文章简介
2. 文章导读
3. 文章亮点
4. 原文传送门
5. References

1. 文章简介

标题：ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
作者：Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang
日期：2020
期刊：AAAI

2. 文章导读

2.1 概括

文章给出了一种新的NLP预训练模型的训练方法，并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE1.0[1]的基础上提升了采用了continual multi-task learning，在多个NLP下游任务上取得了SOTA表现。
文章总体框架如下
整体架构

2.2 文章重点技术

2.2.1 Continual Pre-training

大语言模型的训练成本比较高，为了节约成本和方便使用，我们希望有一个通用的大语言模型可以适用于尽可能多的下游任务。一般来说，我们可以采用多任务学习来对进行语言模型的预训练(multi-task learning)。常规的多任务学习对选定的tasks同时进行训练，这样可以保证所有task都能被平等对待。但这种方法要求所有task的数据都预先准备好，而实际工程化时我们的训练集往往是在过程中逐渐增多的。
Continual pre-training在一定程度上解决了这个问题。在Continual learning中，模型依此学习每个task，这样我们可以在训练号的模型基础上随时增加新的task训练。但这种串行结果往往会让模型忘记之前学习到的信息。
为了解决上述问题，模型提出了一种sqeuential multi-task learning，使得模型在不忘记前面学习的知识的前提下进行增量学习。下图给出了本文应用的sequential multi-task learning(SMTL)和传统的multi-task learning以及continual learning的区别。SMTL首先用原始模型的参数初始化，然后每次新增一个任务的时候，会讲新增任务和原有任务一些学习来更新模型的参数。

2.2.2 Pre-Training Tasks

为了使得模型学习到训练语料库中的词汇、语法和语义信息，文章构建了多个级别的任务

word级别
- 知识掩码：同ERNIE1.0[1]中的掩码任务，模型会进行单词、实体和短语级别的三阶段掩码，从而学习到上下文之间的依赖关系
- 大小写预测：大写字母往往蕴含一些单词信息，对NER等任务比较重要。从而模型增加了预测单词大小写的分类任务，来捕获这种信息。
- token-document关系预测：此任务中，模型预测当前文本段的token是否出现在同文档的其它文本段中。一般来说，如果一个token频繁出现，则它很可能与当前文档的主题相关。这种思想即TF-IDF中的TF思想。
strcuture级别
- 句子重排序：在此任务中，对任意给定的段落，模型首先将其随机分割为 $\dots, m)$ 个片段，再将片段打乱，模型对其进行重新排序，即给出 $n!$ 中顺序中的任意一个作为预测。
- 句子距离预测：此任务为一个3-分类任务。标签为“0”表示两个句子时同一篇文档的相邻句子，“1”表示两个句子为同一篇文档的不同句子，“2”表示两个句子为不同文档中的句子。此任务旨在让模型学习到文档级别的句子距离信息。
semantic级别
- 关系预测：文章使用自动构建的数据集来进行次任务的训练，从而学习到两个句子的语义和修辞关系。
- IR关联预测：此任务为一个3-分类任务。标记为“0”表示query和title之间是强相关，“1”表示二者弱相关，“2”表示二者无关。模型通过学习此任务可以学习到IR(information retrieval)中的短文本关联性。

2.2.3 Task-Embedding

为了使模型了解到不同的任务指令，模型增加了task embedding。每个task id由0～N表示，然后生成对应的task embedding。例如task id为3时，对应的输入如下图

2.2.4 Data

文章在BERT基础上，新增了Reddit和Discovery的数据，且增加了百科、新闻、对话等中文语料库（类似ERNIE1.0，来自百度百科、贴吧、新闻等）

3. 文章亮点

文章给出一种基于sequential multi-task learning的模型预训练方法，在不忘记历史学习到的知识的同时，又可以进行增量学习。文章给出的ERNIE 2.0在多个英文任务上达到了SOTA，且ERNIE 2.0 LARGE重新刷新了实验的10个任务的SOTA表现。

4. 原文传送门

ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
代码+模型

5. References

[1] 论文笔记–ERNIE: Enhanced Representation through Knowledge Integration

Isawany

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

BERT系列文章阅读之ERNIE2.0：基于Continual Multi-task Learning的PLM训练
复制链接

扫一扫