ERNIE1.0 与 ERNIE2.0 论文解读_ernie1.0模型、ernie2.0模型对比-CSDN博客

本文链接：https://blog.csdn.net/lwgkzl/article/details/124873931

总述

本文主要介绍百度发布的ERNIE1.0模型与ERNIE2.0模型。

1. ERNIE1.0 Enhanced Representation through Knowledge Integration

Motivation

BERT那种预测随机mask的方式忽略了句子中的实体信息以及实体与实体之间的关系（即外界的知识）。

Model

在这里插入图片描述模型的训练分为三个阶段，每个阶段使用不同的mask策略，分别为随机mask，随机mask句子中的某些短语，以及随机mask句子中的实体。在预训练的过程中，使得模型来预测句子中被mask掉的词，短语以及实体来学习句子的更加全面的语义信息。

2. ERNIE2.0 A Continual Pre-Training Framework for Language Understanding

Motivation

之前的预训练模型建模的预训练任务是基于词汇与词汇之间的共现关系来建模的。并不能学习到句子完整的词汇，语法以及语句信息。我们可以继续挖掘大量的预训练任务来建模这些信息，如段落中所有句子的顺序，具有特殊意义的实体（人名，地名等）。
对于大量的预训练任务，以multi-task的方式无法动态的增加新挖掘的预训练任务，因而不够灵活。而能动态增加新任务的continue learning的方法线性的学习每一个预训练任务又会有任务遗忘的问题。
本文提出了一个综合解决以上两个问题的模型框架。并且在这个框架的基础上，提出了多个预训练任务来挖掘句子的词汇，语法以及语义信息。

Model

在这里插入图片描述
整个框架的重点在右下角，可以简单理解下右下角四层金字塔，先训练任务1的四分之一的数据，然后训练任务1的四分之一的数据以及任务2的三分之一的数据。第三次则训练任务1的1/4,任务2的1/3以及任务3的1/2的数据。以此类推，最后所有的数据都能训练完毕，模型以一种迭代的方式逐渐增加任务，保证可以动态的增加新任务，同时不会遗忘旧任务，并且没有增加计算量。