ERNIE1.0 与 ERNIE2.0 论文解读

总述

本文主要介绍百度发布的ERNIE1.0模型与ERNIE2.0模型。

1. ERNIE1.0 Enhanced Representation through Knowledge Integration

Motivation

BERT那种预测随机mask的方式忽略了句子中的实体信息以及实体与实体之间的关系(即外界的知识)。

Model

在这里插入图片描述模型的训练分为三个阶段,每个阶段使用不同的mask策略,分别为随机mask, 随机mask句子中的某些短语,以及随机mask句子中的实体。在预训练的过程中,使得模型来预测句子中被mask掉的词,短语以及实体来学习句子的更加全面的语义信息。

2. ERNIE2.0 A Continual Pre-Training Framework for Language Understanding

Motivation

之前的预训练模型建模的预训练任务是基于词汇与词汇之间的共现关系来建模的。并不能学习到句子完整的词汇,语法以及语句信息。我们可以继续挖掘大量的预训练任务来建模这些信息,如段落中所有句子的顺序,具有特殊意义的实体(人名,地名等)。
对于大量的预训练任务,以multi-task的方式无法动态的增加新挖掘的预训练任务,因而不够灵活。而能动态增加新任务的continue learning的方法线性的学习每一个预训练任务又会有任务遗忘的问题。
本文提出了一个综合解决以上两个问题的模型框架。并且在这个框架的基础上,提出了多个预训练任务来挖掘句子的词汇,语法以及语义信息。

Model

在这里插入图片描述
整个框架的重点在右下角, 可以简单理解下右下角四层金字塔,先训练任务1的四分之一的数据,然后训练任务1的四分之一的数据以及任务2的三分之一的数据。第三次则训练任务1的1/4,任务2的1/3以及任务3的1/2的数据。以此类推,最后所有的数据都能训练完毕,模型以一种迭代的方式逐渐增加任务,保证可以动态的增加新任务,同时不会遗忘旧任务,并且没有增加计算量。

在这个框架的基础上,本文挖掘了很多新的预训练任务:分别为词汇界别,语法结构级别以及语义级别的。
在这里插入图片描述
其中
word-aware的与ernie1.0的训练目标基本一致,此外还加了一个大写词汇的预测(预测某词汇是不是大写),因为大写的词汇一般具有特殊意义。

Structure-aware的任务有1. 预测段落中所有句子的相对位置 2. 判断两句话是否在同一个文档中。

Semantic-aware的任务有1. 判断实体之间的关系(利用工具进行粗略标注) 2. 利用用户点击数据作为弱监督,学习询问与文档的相关性(用户点击了则粗略算作相关)

ps

ERNIE2.0提出的框架在工业界有着非常实际的意义, 因为它具备良好的扩展性,可以持续的学习,并且可以挖掘出更多的弱监督或者自监督信息。

BTW, ERNIE2.0的摘要写的一言难尽ummm

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值