论文浅尝 | 基于文本关联的知识图谱的无监督嵌入增强

论文提出了一种无监督方法,整合文本信息以增强知识图谱的实体嵌入。通过考虑实体描述和非结构化文本数据,提出两种不同的嵌入增强模型。实验表明,这种方法能有效提高链接预测性能,适用于多种知识图谱嵌入模型。
摘要由CSDN通过智能技术生成


来源:IJCAI2019

论文链接: https://www.ijcai.org/proceedings/2019/0725.pdf

 

概述

知识图谱嵌入是从多关系数据中提取数据的工具,最近的嵌入模型对从现有数据库中推断新事实具有很高的效率。然而,这种精确结构的数据通常在数量和范围上都是有限的。因此,要充分优化嵌入,还必须考虑更广泛可用的信息源(如文本)。本文描述了一种通过增加实体嵌入和关联词嵌入来整合文本信息的无监督方法。该方法不修改知识图谱嵌入的优化目标,这允许它与已有的嵌入模型集成。同时考虑了两种不同形式的文本数据,并针对每种情况提出了不同的嵌入增强。在第一种情况下,每个实体都有一个描述它的关联文本文档。在第二种情况下,文本文档不可用,相反,实体以单词或短语的形式出现在非结构化的文本片段语料库中。实验表明,这两种方法在应用于多种不同的知识图嵌入模型时,都能有效地提高连接预测的性能。

 

模型和方法

 

嵌入增强方法

在本节中,作者将讨论将文本数据合并到知识图谱嵌入中的新方法。此附加信息允许培训过程学习同时从知识库和相关文本中反映事实的实体表示。根据可用文本数据的形式,我们考虑两种不同的场景:在第一种场景中,每个实体都有一个与之相关的文档来描述或定义实体;例如,欧洲的维基百科条目。这些数据可以从许多来源获得,包括百科全书或字典。在第二个场景中,我们考虑一个非结构化的语料库,它不直接链接到任何实体,但包含在任意位置的实体。例如,一篇提到欧洲的新闻文章可能是这个语料库的一部分。对本文的组织结构没有任何假设,因此它通常可以是从多个文档中收集的句子的集合。这两种形式的数据之间的关键区别在于,在前者中,实体是文档中所有单词的基础主题,而在后者中,实体只是包含未知主题的混合文档中提到的对象。结果,第一种情况包含每个单词以某种方式与已知实体相关的附加信息。对于第二种情况,我们只假设在相同上下文中出现的单词之间存在关联。这一区别如图1所示。

            

1.1 实体描述的嵌入模型

 

在本节中,我们为图1中的第一个场景提供了一个模型,其中文本数据可用作实体描述。我们的方法基于[Socher等人,2013]的字向量模型,该模型将实体向量定义为实体名称中字向量的平均值。首先,我们观察到,该思想也可以应用于实体描述,从而强制实体嵌入共享共同的文本特征,如属性或关系词。这将为语义上更相似的实体生成更相似的向量。然后,我们通过添加新参数来控制每个单词对给定关系的实体组成的贡献程度,从而改进了该模型。

我们首先对WordVectors模型进行形式化,我们已经对其进行了调整,以适应实体描述的情况。设文本(ei)=wi,1,wi,2。. . 是与实体ei相关联的单词序列。设W表示词向量的nw×d矩阵,其中nw是词汇表中的词个数,d是嵌入维数。让Ai表示nw维向量,使得Aik是单词wk在文本中出现的次数(ei)。然后,ei的嵌入

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值