论文笔记--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

1. 文章简介

  • 标题:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
  • 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang
  • 日期:2020
  • 期刊:AAAI

2. 文章导读

2.1 概括

  文章给出了一种新的NLP预训练模型的训练方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE1.0[1]的基础上提升了采用了continual multi-task learning,在多个NLP下游任务上取得了SOTA表现。
  文章总体框架如下
整体架构

2.2 文章重点技术

2.2.1 Continual Pre-training

  大语言模型的训练成本比较高,为了节约成本和方便使用,我们希望有一个通用的大语言模型可以适用于尽可能多的下游任务。一般来说,我们可以采用多任务学习来对进行语言模型的预训练(multi-task learning)。常规的多任务学习对选定的tasks同时进行训练,这样可以保证所有task都能被平等对待。但这种方法要求所有task的数据都预先准备好,而实际工程化时我们的训练集往往是在过程中逐渐增多的。
  Continual pre-training在一定程度上解决了这个问题。在Continual learning中,模型依此学习每个task,这样我们可以在训练号的模型基础上随时增加新的task训练。但这种串行结果往往会让模型忘记之前学习到的信息。
  为了解决上述问题,模型提出了一种sqeuential multi-task learning,使得模型在不忘记前面学习的知识的前提下进行增量学习。下图给出了本文应用的sequential multi-task learning(SMTL)和传统的multi-task learning以及continual learning的区别。SMTL首先用原始模型的参数初始化,然后每次新增一个任务的时候,会讲新增任务和原有任务一些学习来更新模型的参数。
continual learning

2.2.2 Pre-Training Tasks

  为了使得模型学习到训练语料库中的词汇、语法和语义信息,文章构建了多个级别的任务

  • word级别
    • 知识掩码:同ERNIE1.0[1]中的掩码任务,模型会进行单词、实体和短语级别的三阶段掩码,从而学习到上下文之间的依赖关系
    • 大小写预测:大写字母往往蕴含一些单词信息,对NER等任务比较重要。从而模型增加了预测单词大小写的分类任务,来捕获这种信息。
    • token-document关系预测:此任务中,模型预测当前文本段的token是否出现在同文档的其它文本段中。一般来说,如果一个token频繁出现,则它很可能与当前文档的主题相关。这种思想即TF-IDF中的TF思想。
  • strcuture级别
    • 句子重排序:在此任务中,对任意给定的段落,模型首先将其随机分割为 n ( n = 1 , … , m ) n (n=1, \dots, m) n(n=1,,m)个片段,再将片段打乱,模型对其进行重新排序,即给出 n ! n! n!中顺序中的任意一个作为预测。
    • 句子距离预测:此任务为一个3-分类任务。标签为“0”表示两个句子时同一篇文档的相邻句子,“1”表示两个句子为同一篇文档的不同句子,“2”表示两个句子为不同文档中的句子。此任务旨在让模型学习到文档级别的句子距离信息。
  • semantic级别
    • 关系预测:文章使用自动构建的数据集来进行次任务的训练,从而学习到两个句子的语义和修辞关系。
    • IR关联预测:此任务为一个3-分类任务。标记为“0”表示query和title之间是强相关,“1”表示二者弱相关,“2”表示二者无关。模型通过学习此任务可以学习到IR(information retrieval)中的短文本关联性。

2.2.3 Task-Embedding

  为了使模型了解到不同的任务指令,模型增加了task embedding。每个task id由0~N表示,然后生成对应的task embedding。例如task id为3时,对应的输入如下图
task embedding

2.2.4 Data

  文章在BERT基础上,新增了Reddit和Discovery的数据,且增加了百科、新闻、对话等中文语料库(类似ERNIE1.0,来自百度百科、贴吧、新闻等)

3. 文章亮点

  文章给出一种基于sequential multi-task learning的模型预训练方法,在不忘记历史学习到的知识的同时,又可以进行增量学习。文章给出的ERNIE 2.0在多个英文任务上达到了SOTA,且ERNIE 2.0 LARGE重新刷新了实验的10个任务的SOTA表现。

4. 原文传送门

ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
代码+模型

5. References

[1] 论文笔记–ERNIE: Enhanced Representation through Knowledge Integration

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ERNIE-Bot-turbo是一种基于百度AI技术ERNIE(Enhanced Representation through Knowledge Integration)的聊天机器人,它可以进行智能对话和知识问答。ERNIE-Bot-turbo在原有ERNIE-Bot的基础上,通过使用更大的预训练模型ERNIE2.0和更多的训练数据,提高了对话和问答的准确性和流畅性,同时还增加了多轮对话和情感分析等功能。以下是关于ERNIE-Bot-turbo的一些信息: - ERNIE-Bot-turbo的提问方式与普通聊天机器人相同,用户可以直接在对话框中输入问题或语句,ERNIE-Bot-turbo会自动进行分析并给出回答。 - ERNIE-Bot-turbo的知识库涵盖了广泛的领域,包括文化、科技、体育、社会、历史等多个方面,用户可以向ERNIE-Bot-turbo提出不同领域的问题。 - ERNIE-Bot-turbo支持多轮对话,可以针对用户的问题进行追问和回答,实现更加流畅的对话。 - ERNIE-Bot-turbo还具有情感分析功能,可以识别用户的情感状态并根据情感状态给出不同的回答,增强了对话的真实感和情感交互性。 下面是一个样例对话: 用户:你好,请问你叫什么名字? ERNIE-Bot-turbo:你好,我是ERNIE-Bot-turbo,很高兴为您服务。 用户:你会哪些知识领域? ERNIE-Bot-turbo:我的知识库涵盖了广泛的领域,包括文化、科技、体育、社会、历史等多个方面,您可以向我提出不同领域的问题。 用户:你会情感分析吗? ERNIE-Bot-turbo:是的,我能够识别您的情感状态并根据情感状态给出不同的回答,增强了对话的真实感和情感交互性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值