论文笔记--ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING

Isawany

已于 2023-05-16 11:58:30 修改

阅读量259

点赞数 1

分类专栏：论文阅读文章标签：论文阅读语言模型 paddle gpt-3 文心一言

于 2023-05-15 19:48:29 首次发布

本文链接：https://blog.csdn.net/weixin_38124427/article/details/130690896

版权

论文阅读专栏收录该内容

80 篇文章 3 订阅

订阅专栏

论文笔记--ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION

1. 文章简介
2. 文章导读
3. 文章亮点
4. 原文传送门
5. References

1. 文章简介

标题：ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION
作者：Sun Y, Wang S, Feng S, et al.
日期：2021
期刊：arxiv preprint

2. 文章导读

2.1 概括

文章提出了一种融合了自回归和自编码网络架构的预训练模型ERNIE3.0，使得模型可以通过few-shot(FS), zero-shot(ZS)或者fine-tuning(FT)来完成NLP下游任务。ERNIE3.0在ERNIE1.0[1] 和ERNIE2.0[2]的基础上增加了数据集和模型参数量，在54个中文NLP任务中达到了SOTA。
文章总体架构如下

2.2 文章重点技术

2.2.1 Universal Representition Module

如上图所示，模型框架分为两部分：Universal Representation(UR)和Task-specific Representation(TR)。作者认为不同的NLP任务均依赖相同的潜在的抽象特征底座，故文章设置了一个共享的特征提取层UR来进行词向量训练，针对下游的自然语言理解和生成任务均无需改变网络架构和参数。
UR层的架构可以参考ERNIE2.0[2]，即采用了一种sequential multi-task learning的训练方法。

2.2.2 Task-specific Representation Module

如上图所示，TR模块包含两个任务：NLU(Natural Language Understanding)和NLG(Natural Language Generation)。文章设置TR的参数量小于UR层，这样可以保证模型对基础特征的捕捉能力更强。在进行模型微调时，只需要更新TR层的参数即可。这样轻量级的TR层可以保证下游任务微调的效率更高。

2.2.3 预训练任务

类似ERNIE1.0[1]和ERNIE2.0[2]，模型给出了三个层面的预训练任务

单词级别
- MLM：对单词、实体和短语进行掩码预测，从而捕捉到上下文依赖关系
- 生成式任务：采用GPT的训练目标，即通过上文预测当前词，进行生成式预训练
结构级别
- 文本重新排序[2]
- 文本距离预测[2]
知识级别：Universal Knowledge-Text Prediction（UKTP）。为了将高级知识融入到预训练模型，文章尝试引入知识图谱。模型从语料库的文档中抽取知识图谱中头实体或尾实体属于当前文档的三元组，并找到头实体和尾实体均在当前文档中同一句子的三元组，然后预测两个实体之间的关系。如抽取实体(A，夫妻，B)，A和B均出现在句子“A和B在2010年结婚”，我们通过这句话预测实体A和B的关系”夫妻“。

3. 文章亮点

文章介绍了一种以大参数量的统一Transformer-XL为骨架，结合NLU+NLG两种NLP任务的大语言模型，该模型在54个中文NLP任务中取得SOTA结果。文章的基本假设为“数据集越大、参数量越多，模型表现越好”和“所有NLP任务均基于相同的底层抽象特征”。ERNIE3.0在ERNIE1.0提出的三阶段掩码策略和ERNIE2.0提出的continual multi-task learning的基础上进行优化，在中文NLP数值实验中表现更佳。

4. 原文传送门

ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION

5. References

[1] 论文笔记–ERNIE: Enhanced Representation through Knowledge Integration
[2] 论文笔记–ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
[3] 论文笔记–Improving Language Understanding by Generative Pre-Training

Isawany

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文笔记--ERNIE 3.0: LARGE-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING

BERT系列文章阅读之ERNIE3.0：基于统一骨架和双下游任务的语言模型训练
复制链接

扫一扫