【论文笔记】ERNIE: Enhanced Representation through Knowledge Integration

ERNIE: Enhanced Representation through Knowledge Integration

Created time: July 26, 2021 1:50 PM
Last edited time: July 30, 2021 9:24 AM
PDF: https://arxiv.org/pdf/1904.09223v1.pdf
Tags: Bert
参考材料: https://blog.csdn.net/weixin_41089007/article/details/103642082
大致思路: 整合先验知识【知识增强的手段】进行优化,mask的时候进行短语以及实体级别的mask
精读: Yes
编辑人: Freax Ruby

目录

概述

整合先验知识【知识增强的手段】进行优化,mask的时候进行短语以及实体级别的mask

之前有哪些方法

  • 采用矢量表示单词 ,上下文无关的表示
    • Word2Vec
    • Glove
  • 采用上下文来预测丢失的单词【没有考虑先验知识】
    • Skip-thought
      • 提出了一种通用的分布式句子编码器的无监督学习方法。
    • Cove
      • 表明,与在各种常见的NLP任务上仅使用无监督的单词和字符向量相比,添加这些上下文向量可以提高性能。
    • ULMFit
      • 提出了一种有效的转移学习方法,该方法可以应用于NLP中的任何任务。
    • ELMo
      • 建议从语言模型中提取上下文相关的功能。
    • GPT
      • 通过修改Transformer增强了上下文相关的嵌入。
    • BERT
      • 使用两种不同的预训练任务进行语言建模。 BERT随机掩盖句子中一定比例的单词,并学习预测那些被掩盖的单词。 此外,BERT学习预测两个句子是否相邻。
    • MT-DNN
      • 结合了预训练学习和多任务学习,以提高GLUE中多个不同任务的绩效。
    • GPT-2
      • 将任务信息添加到了预训练过程中,并使他们的模型适应零样本任务。
    • XLM
      • 在预训练过程中增加了语言嵌入功能,从而在跨语言任务中取得了更好的结果。
  • 采用异构数据
    • 通用句子编码器
      • 采用了来自Wikipedia,网络新闻,Web质量检查页面和讨论论坛的异构训练数据。
    • 基于响应预测的句子编码器
      • 受益于从Reddit对话中提取的查询-响应对数据。
    • XLM
      • 向BERT引入了并行语料库,它与掩盖语言模型任务一起接受了训练

做了什么工作

请添加图片描述

BERT是字输入字掩码
ERNIE是字输入词掩码
而这个识别词的过程就是加入知识整合的点

采用多阶段的知识掩盖策略,而不是直接添加知识嵌入,而是将短语和实体级知识集成到语言表示中

请添加图片描述
3.2.1基本级别掩码

第一个学习阶段是使用基本级别掩盖,它将句子作为基本语言单位的序列,对于英语,基本语言单位是单词,对于中文,基本语言单位是汉字。 在训练过程中,我们随机掩盖15%的基本语言单元,并使用句子中的其他基本单元作为输入,并训练一个Transformer来预测掩盖单元。 和BERT一样的操作,基于基本级别的掩码,学习低级语义。

3.2.2 短语级别掩码

第二阶段是采用短语级别的屏蔽。 词组是一小部分单词或字符,一起充当概念单元。 对于英语,我们使用词法分析和分块工具来获取句子中短语的边界,并使用一些依赖于语言的分段工具来获取其他语言(例如中文)的词/短语信息。 **在短语级掩码阶段,我们还使用基本语言单元作为训练输入,这与随机基本单元掩码不同,**这次我们随机选择句子中的几个短语,掩盖并预测同一短语中的所有基本单元。 在此阶段,短语信息被编码到单词嵌入中。

3.2.3实体级别掩码

第三阶段是实体级屏蔽。 名称实体包含人员,位置,组织,产品等,可以用专有名称表示。 它可以是抽象的,也可以是物理存在的。 通常,实体在句子中包含重要信息。 与短语屏蔽阶段一样,我们首先分析句子中的命名实体,然后屏蔽并预测实体中的所有时隙。 经过三个阶段的学习,获得了通过更丰富的语义信息增强的单词表示。

请添加图片描述

对话数据对于语义表示很重要,因为相同答复的相应查询语义通常很相似。 ERNIE在DLM(对话语言模型)任务上对查询-响应对话结构进行建模。如图3所示,我们的方法引入了对话嵌入(dialogue embedding)来识别对话中的角色,这与通用句子编码器的方法不同(Cer等人,2018)。 ERNIE的“对话”嵌入功能与BERT中的令牌类型嵌入功能相同,不同之处在于ERNIE还可以表示多回合对话(例如QRQ,QRR,QQR,其中Q和R分别代表“查询”和“响应”)。像BERT中的MLM一样,使用掩码来强制使模型预测以查询和响应为条件的缺失词。而且,我们通过用随机选择的句子替换查询或响应来生成假样本。该模型旨在判断多回合对话是真实的还是假的。

DLM任务可帮助ERNIE学习对话中的隐式关系,这也增强了模型学习语义表示的能力。DLM任务的模型体系结构与MLM任务的模型体系结构兼容,因此可以通过MLM任务对其进行预训练。

解决了什么问题

自然语言推理

语义相似性

命名实体识别

情感分析

问题解答

在完形填空测试中具有更强大的知识推理能力

创新点在哪里

1.mask策略。BERT只使用了字级别的随机masking,但是ERNIE使用了字、实体、短语三个级别的masking,旨在使模型学习到更多高级的语义。

2.中文异构数据预训练。对异构无监督数据进行预训练的语义编码器可以提高迁移学习性能。百度构建了混合语料库——中文Wikepedia,百度百科,百度新闻和百度贴吧。

3.对话语言模型。DLM任务可帮助ERNIE学习对话中的隐式关系,这也增强了模型学习语义表示的能力。

采用了什么数据

  • 自然语言推理
    • 跨语言自然语言推理(XNLI)语料库
      • 是MultiNLI语料库的众包集合。 两对文字加上文字说明,并被翻译成包括中文在内的14种语言。 标签包含矛盾,中立和包含。
  • 语义相似性
    • 大规模中文问题匹配语料库(LCQMC)
      • 旨在识别两个句子是否具有相同的意图。 数据集中的每一对句子都与一个二进制标签相关联,该二进制标签指示两个句子是否共享相同的意图,并且可以将该任务形式化为预测二进制标签。
  • 命名实体识别
    • MSRA-NER
      • 由Microsoft Research Asia发布。 实体包含几种类型,包括人员姓名,地名,组织名称等。 该任务可以看作是序列标记任务。
  • 情感分析
    • ChnSentiCorp(Song-bo)
      • 旨在判断句子的情感。 它包括酒店,书籍和电子计算机等多个领域的评论。 该任务的目的是判断句子是肯定的还是否定的。
  • 问题解答
    • NLPCC-DBQA
      • 评估方法包括MRR和F1得分

解决的效果怎么样

请添加图片描述
知识屏蔽策略的效果

在这里插入图片描述

DLM的效果

完形填空效果

在这里插入图片描述

还能做哪些工作

将其他类型的知识整合到语义表示模型中,例如使用语法解析或来自其他任务的弱监督信号。

采用其他语言来验证这个想法

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值