ERNIE: Enhanced Language Representation with Informative Entities


论文链接: https://arxiv.org/pdf/1905.07129v3.pdf
code: https://github.com/thunlp/ERNIE

摘要

在大规模语义上进行预训练(如Bert)可以在各种各样的NLP任务中获取很好的语义信息。然而,现有的模型很少考虑到加入知识图谱,通过引入结构化知识以更好的对语句进行理解。作者认为知识图谱中丰富的外部知识可以增强语言的表达能力。在本文中,利用了一个大型的文本语料库以及知识图谱,来增强语言的表达能力,它能同时充分利用词汇信息、句法信息和知识信息。

第一章 简介

在这里插入图片描述
fig1. 引入外部信息示例。实线表示现有的知识信息。红色的虚线表示从红色句子中提取的信息。绿色的圆点线表示从绿色句子中提取的信息

  • 虽然预训练的语言表示模型已经取得了很好的效果,并且用于许多NLP任务,但它们忽略了将知识信息纳入语言理解。如图1所示,在不知道Blowin ’ in the Wind和Chronicles: Volume One分别是歌曲和书籍的情况下,很难在实体类型任务上识别Bob Dylan的两个职业,分别是词曲作者和作家。即不能提取细粒度的关系,例如作曲家和作者。这就需要更丰富的语义信息来更好的对句子进行理解。
  • 将外部知识引入到语言模型中,有两大挑战:
    (1)知识编码结构化:
    通过给定的文本,如何有效地提取和编码与之相关的信息事实语言表示模型的知识图谱是一个重要问题;
    (2)异构信息融合
    语言表示的预训练过程与知识表示过程有很大的不同,导致了两个独立的向量空间。
  • 针对于上述问题,作者提出了ERNIE模型,该模型可以在大型文本语料库以及知识图谱中进行预训练:
    (1)为了提取和编码知识信息,本文首先识别出文本中的命名实体,然后将这些提及与KGs中相应的实体进行对齐。该方法不是直接使用KGs中的基于图的信息,而是使用TransE等知识嵌入算法对知识图谱的图结构进行编码。然后将信息实体嵌入作为ERNIE的输入。通过文本与信息库之间的对齐,将知识模块中的实体表示集成到
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值