ERNIE: Enhanced Representation through Knowledge Integration(百度)论文翻译

paper:https://arxiv.org/pdf/1904.09223.pdf

code:https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

文前总结

ERNIE相比于BERT,做出了如下改进:

1.mask策略。BERT只使用了字级别的随机masking,但是ERNIE使用了字、实体、短语三个级别的masking,旨在使模型学习到更多高级的语义。

2.中文异构数据预训练。对异构无监督数据进行预训练的语义编码器可以提高迁移学习性能。百度构建了混合语料库——中文Wikepedia,百度百科,百度新闻和百度贴吧。

3.对话语言模型。DLM任务可帮助ERNIE学习对话中的隐式关系,这也增强了模型学习语义表示的能力。

0.摘要

我们提出了一种新的语言表示模型,该模型称为ERNIE(通过知识集成的增强表示)。 受到BERT掩盖策略的启发(Devlin等人,2018),ERNIE被设计为学习通过知识掩盖策略增强的语言表示,其中包括实体级掩盖和短语级掩盖。 实体级策略可掩盖通常由多个单词组成的实体。 短语级策略掩盖了整个短语,该短语由几个词组成,作为一个概念单元。 实验结果表明,ERNIE优于其他基准方法,在五个自然语言处理任务(包括自然语言推理,语义相似性,命名实体识别,情感分析和问题解答)上取得了最新的最新成果。 我们还证明ERNIE在完形填空测试中具有更强大的知识推理能力。

1.简介

事实证明,语言表示预训练可以有效地改善许多自然语言处理任务,例如命名实体识别,情感分析和问题解答。 为了获得可靠的单词表示,设计了神经语言模型来学习单词共现,然后在无监督学习的情况下获得单词嵌入。 Word2Vec和Glove中的方法将单词表示为矢量,其中相似的单词具有相似的单词表示形式。 这些单词表示为其他深度学习模型中的单词向量提供了初始化。 最近,Cove,Elmo,GPT和BERT等许多作品通过不同的策略改进了单词表示,这已被证明对于下游自然语言处理任务更为有效。

这些研究中的绝大多数通过仅通过上下文来预测丢失的单词来对表示进行建模。 这些作品没有考虑句子中的先验知识。 例如,在“哈利·波特是由J·罗琳撰写的一系列幻想小说”一句中。 哈利·波特(Harry Potter)是一个新颖的名字,而罗琳(J. K. Rowling)是作家。 该模型很容易通过实体内的单词搭配来预测实体Harry Potter的缺失单词,而无需借助较长的上下文。 该模型无法根据哈利·波特与J·K·罗琳之间的关系预测哈利·波特。 直观的是,如果模型学习了有关先验知识的更多信息,则该模型可以获得更可靠的语言表示。

在本文中,我们提出了一种使用知识掩盖策略的名为ERNIE(通过知识集成的增强表示)的模型。 除了基本的掩蔽策略外,我们还使用两种知识策略:短语级策略和实体级策略。 我们将一个短语或一个实体作为一个单元,通常由多个单词组成。 在单词表示训练期间,同一单元中的所有单词都被屏蔽,而不是仅一个单词或字符被屏蔽。以这种方式,在训练过程中隐式地学习了短语和实体的先验知识。ERNIE没有直接添加知识嵌入的知识,而是隐式地学习了有关知识和较长语义依赖性的信息,例如实体之间的关系,实体的属性和事件的类型,以指导单词嵌入学习。 这可以使模型具有更好的概括性和适应性。

为了减少模型的训练成本,对ERNIE

  • 7
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值