ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 论文翻译

最新推荐文章于 2024-04-07 15:53:04 发布

睡熊猛醒

最新推荐文章于 2024-04-07 15:53:04 发布

阅读量1.5k

点赞数 2

分类专栏：语言模型情感分析深度学习文章标签：语言模型 ERNIE

原文链接：https://arxiv.org/pdf/1907.12412.pdf

版权

ERNIE 2.0是一个连续预训练框架，通过多任务学习捕获词汇、句法和语义信息。对比BERT和XLNet，ERNIE 2.0在16个任务上表现出色。它引入了知识掩盖、大写预测、令牌-文档关系预测等预训练任务，以增强模型的表示能力。

摘要由CSDN通过智能技术生成

文前总结：

ERNIE2.0的亮点：

1.融合了持续学习（continual Learning）、多任务学习、知识引入等多种套路。

2.构造的任务可以分为三类：1) word-aware tasks用于教模型捕捉词汇信息（lexical information）；2) structure-aware task教模型捕捉句法信息（syntactic information）；3) semantic-aware任务顾名思义负责捕捉语义信息。

疑点：

1）添加了这么多任务，哪些才是真实有用的？（没有做ablation study）；2）多任务的机制到底是怎样的？3）实验细节太少。

0 摘要

最近，经过预训练的模型已经在各种语言理解任务中取得了最新的成果。当前的预训练程序通常着重于通过几个简单的任务来训练模型，以掌握单词或句子的同时出现。但是，除了共同出现的信息外，在训练语料库中还存在其他有价值的词汇，句法和语义信息，例如命名实体，语义紧密度和话语关系。为了从训练语料库中提取词汇，句法和语义信息，我们提出了一个名为ERNIE 2.0的连续预训练框架，该框架以递增方式构建预训练任务，然后通过连续多任务学习来学习这些已构建任务的预训练模型。在此框架的基础上，我们构建了多个任务并训练ERNIE 2.0模型，以捕获训练数据中信息的词汇，句法和语义方面。实验结果表明，ERNIE 2.0模型在16个任务上表现优于BERT和XLNet，包括GLUE基准测试中的英语任务和一些中文类似任务。

1 简介

预先训练的语言表示形式，例如ELMo（Peters等人2018），OpenAI GPT（Radford等人2018），BERT（Devlin等人2018），ERNIE 1.0（Sun等人2019）和XLNet（Yang等人2019）被证明可有效改善各种自然语言理解任务的绩效，包括情感分类（Socher等人2013），自然语言推理（Bowman等人2015），命名实体识别（Sang和De Meulder 2003）等。通常，模型的预训练通常基于单词和句子的共现来训练模型。实际上，除同现外，还有其他词汇，句法和语义信息值得在训练语料库中进行检查。例如，诸如个人名称，位置名称和组织名称之类的命名实体可能包含概念性信息。诸如句子顺序和句子接近度之类的信息使模型能够学习结构感知表示。文档级别的语义相似性或句子之间的语篇关系使模型可以学习语义感知表示。为了发现训练语料库中的所有有价值的信息，无论是词汇，句法还是语义表示形式，我们提出了一个名为ERNIE 2.0的连续预训练框架，该框架可以通过连续的多任务逐步构建和训练各种各样的预训练任务学习。

我们的ERNIE框架支持通过不断进行多任务学习来不断引入各种定制任务。当被赋予一个或多个新任务时，连续多任务学习方法可以有效地同时训练新引入的任务和原始任务，而不会忘记先前学习的知识。这样，我们的框架可以根据之前掌握的参数训练增量式分布的表示形式。 而且，在此框架中，所有任务共享相同的编码网络，从而使跨不同任务的词汇，句法和语义信息的编码成为可能。 总而言之，我们的贡献如下：

•我们提出了一个连续的预培训框架ERNIE 2.0，该框架有效地支持定制训练任务和以增量方式进行连续多任务学习。

•我们构造了三种无监督的语言处理任务，以验证所提出框架的有效性。实验结果表明，ERNIE 2.0在16个任务（包括英语GLUE基准测试和一些中文任务）上比BERT和XLNet有了显着改进。

•我们的ER

最低0.47元/天解锁文章

睡熊猛醒

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 论文翻译

文前总结：ERNIE2.0的亮点：1.融合了持续学习（continual Learning）、多任务学习、知识引入等多种套路。2.构造的任务可以分为三类：1) word-aware tasks用于教模型捕捉词汇信息（lexical information）；2) structure-aware task教模型捕捉句法信息（syntactic information）；3) semant...
复制链接

扫一扫

专栏目录