ERNIE: Enhanced Language Representation with Informative Entities

Ian_Wonder

于 2020-09-27 14:50:38 发布

阅读量570

点赞数

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40212975/article/details/108798281

版权

ERNIE是一种预训练语言模型，通过结合大规模文本语料库和知识图谱，增强语言理解能力。它通过识别文本中的命名实体，与知识图谱对齐，使用知识编码器融合文本和知识信息，解决知识编码结构化和异构信息融合的挑战。ERNIE在预训练阶段使用新的任务，要求模型结合上下文和知识事实预测被遮盖的实体，从而构建丰富的语言表示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ERNIE: Enhanced Language Representation with Informative Entities

摘要
第一章简介
第二章相关工作
第三章主要工作
第四章实验部分
第五章总结

论文链接： https://arxiv.org/pdf/1905.07129v3.pdf
code: https://github.com/thunlp/ERNIE

摘要

在大规模语义上进行预训练（如Bert）可以在各种各样的NLP任务中获取很好的语义信息。然而，现有的模型很少考虑到加入知识图谱，通过引入结构化知识以更好的对语句进行理解。作者认为知识图谱中丰富的外部知识可以增强语言的表达能力。在本文中，利用了一个大型的文本语料库以及知识图谱，来增强语言的表达能力，它能同时充分利用词汇信息、句法信息和知识信息。

第一章简介

在这里插入图片描述
fig1. 引入外部信息示例。实线表示现有的知识信息。红色的虚线表示从红色句子中提取的信息。绿色的圆点线表示从绿色句子中提取的信息

虽然预训练的语言表示模型已经取得了很好的效果，并且用于许多NLP任务，但它们忽略了将知识信息纳入语言理解。如图1所示，在不知道Blowin ’ in the Wind和Chronicles: Volume One分别是歌曲和书籍的情况下，很难在实体类型任务上识别Bob Dylan的两个职业，分别是词曲作者和作家。即不能提取细粒度的关系，例如作曲家和作者。这就需要更丰富的语义信息来更好的对句子进行理解。
将外部知识引入到语言模型中，有两大挑战：
（1）知识编码结构化：
通过给定的文本，如何有效地提取和编码与之相关的信息事实语言表示模型的知识图谱是一个重要问题;
（2）异构信息融合
语言表示的预训练过程与知识表示过程有很大的不同，导致了两个独立的向量空间。
针对于上述问题，作者提出了ERNIE模型，该模型可以在大型文本语料库以及知识图谱中进行预训练：
（1）为了提取和编码知识信息，本文首先识别出文本中的命名实体，然后将这些提及与KGs中相应的实体进行对齐。该方法不是直接使用KGs中的基于图的信息，而是使用TransE等知识嵌入算法对知识图谱的图结构进行编码。然后将信息实体嵌入作为ERNIE的输入。通过文本与信息库之间的对齐，将知识模块中的实体表示集成到语义模块的底层。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。