论文笔记--ERNIE: Enhanced Representation through Knowledge Integration

最新推荐文章于 2024-10-09 14:42:01 发布

Isawany

最新推荐文章于 2024-10-09 14:42:01 发布

阅读量344

点赞数 1

分类专栏：论文阅读文章标签：论文阅读语言模型百度 bert 文心一言

本文链接：https://blog.csdn.net/weixin_38124427/article/details/130657538

版权

论文阅读专栏收录该内容

80 篇文章 3 订阅

订阅专栏

论文笔记--ERNIE: Enhanced Representation through Knowledge Integration

1. 文章简介
2. 文章导读
3. 文章亮点
4. 原文传送门
5. References

1. 文章简介

标题：ERNIE: Enhanced Representation through Knowledge Integration
作者：Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, Hua Wu
日期：2019
期刊：arxiv preprint

2. 文章导读

2.1 概括

文章提出了一种基于分词、短语和实体级别的训练目的，相比于BERT[1]中提出的基于分词级别的MLM+NSP训练模型增强了模型对高级信息的捕获能力。并且文章提出了DLM的训练任务，使得模型更好地学习到对话中隐含的关系，从而增强了模型的语义表征能力。最终训练得到的ERNIE(Enhanced Representation through kNowledge IntEgration)模型在五个中文NLP任务中给出了新的SOTA表现。

2.2 文章重点技术

2.2.1 先验知识集成

文章提出了三种水平的掩码来进行MLM任务：Basic-Level Masking(BLM), Phrase-Level Masking(PLM)和Entity-Level Masking(ELM):

BLM: 首先文章学习一个单词级别的MLM任务。为此模型将每个句子视为一个基本语言单元（basic Language unit, BLU）的序列，其中BLU在英语中指每个英文单词，在中文中指的是每个汉字。这个步骤任务旨在学习到一个低级别单词表征能力的模型，但此阶段后模型还难以理解高级语言知识。
PLM：类似于BLM，这里将短语视为一个BLU，从而掩码的最小单元为一个短语中的所有单词，预测过程也相应的修改为预测短语中的所有单词。其中，文章通过lexical分析和chunking 工具提取到英语短语的边界，通过一些语言分割工具来的到包括中文在内的其它语言的短语边界。
ELM：第三阶段，模型通过先验知识获取到每个句子中的实体（即人名、地名、机构名等专有名词）信息（具体怎么获取的原文未提及，猜测是用百度的LAC工具等方法进行词性标注和实体获取）。掩码策略即对句子中的实体进行掩码和预测。
三个阶段的掩码对比见下图

2.2.2 DLM任务

为了更好地利用对话数据，文章提出了DLM(Dialogue Language Model)任务，对标BERT中的NSP任务。区别在于ERNIE中提出的DLM任务支持多轮对话，如QR，QRQ，QRR等（其中Q表示问题，R表示回答）。文章将真实的回答数据随机替换为任意句子，并标记此类样本为负样本。类似于BERT，ERNIE基于QR数据预测MLM和是否为真实的QR数据（分类问题）。DLM任务可以让ERNIE学习到对话当中蕴含的关系，从而增强模型的语言表征能力。
多轮对话的训练输入如下图所示，在原有的BERT输入基础之上增加了对话编码，包含Q或R两个分类，以表征当前token属于Q或者R。
DLM