论文笔记--ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING

1. 文章简介

  • 标题:ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION
  • 作者:Sun Y, Wang S, Feng S, et al.
  • 日期:2021
  • 期刊:arxiv preprint

2. 文章导读

2.1 概括

  文章提出了一种融合了自回归和自编码网络架构的预训练模型ERNIE3.0,使得模型可以通过few-shot(FS), zero-shot(ZS)或者fine-tuning(FT)来完成NLP下游任务。ERNIE3.0在ERNIE1.0[1] 和ERNIE2.0[2]的基础上增加了数据集和模型参数量,在54个中文NLP任务中达到了SOTA。
  文章总体架构如下
总体架构

2.2 文章重点技术

2.2.1 Universal Representition Module

  如上图所示,模型框架分为两部分:Universal Representation(UR)和Task-specific Representation(TR)。作者认为不同的NLP任务均依赖相同的潜在的抽象特征底座,故文章设置了一个共享的特征提取层UR来进行词向量训练,针对下游的自然语言理解和生成任务均无需改变网络架构和参数。
  UR层的架构可以参考ERNIE2.0[2],即采用了一种sequential multi-task learning的训练方法。

2.2.2 Task-specific Representation Module

  如上图所示,TR模块包含两个任务:NLU(Natural Language Understanding)和NLG(Natural Language Generation)。文章设置TR的参数量小于UR层,这样可以保证模型对基础特征的捕捉能力更强。在进行模型微调时,只需要更新TR层的参数即可。这样轻量级的TR层可以保证下游任务微调的效率更高。

2.2.3 预训练任务

  类似ERNIE1.0[1]和ERNIE2.0[2],模型给出了三个层面的预训练任务

  • 单词级别
    • MLM:对单词、实体和短语进行掩码预测,从而捕捉到上下文依赖关系
    • 生成式任务:采用GPT的训练目标,即通过上文预测当前词,进行生成式预训练
  • 结构级别
    • 文本重新排序[2]
    • 文本距离预测[2]
  • 知识级别:Universal Knowledge-Text Prediction(UKTP)。为了将高级知识融入到预训练模型,文章尝试引入知识图谱。模型从语料库的文档中抽取知识图谱中头实体或尾实体属于当前文档的三元组,并找到头实体和尾实体均在当前文档中同一句子的三元组,然后预测两个实体之间的关系。如抽取实体(A,夫妻,B),A和B均出现在句子“A和B在2010年结婚”,我们通过这句话预测实体A和B的关系”夫妻“。

3. 文章亮点

  文章介绍了一种以大参数量的统一Transformer-XL为骨架,结合NLU+NLG两种NLP任务的大语言模型,该模型在54个中文NLP任务中取得SOTA结果。文章的基本假设为“数据集越大、参数量越多,模型表现越好”和“所有NLP任务均基于相同的底层抽象特征”。ERNIE3.0在ERNIE1.0提出的三阶段掩码策略和ERNIE2.0提出的continual multi-task learning的基础上进行优化,在中文NLP数值实验中表现更佳。

4. 原文传送门

ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION

5. References

[1] 论文笔记–ERNIE: Enhanced Representation through Knowledge Integration
[2] 论文笔记–ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
[3] 论文笔记–Improving Language Understanding by Generative Pre-Training

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值