【论文笔记】Unsupervised Embedding Enhancements of Knowledge Graphs using Textual Associations

本文提出了一种无监督的方法,通过结合文本信息增强知识图谱实体嵌入。该方法不改变原有嵌入模型的目标,能与多种模型集成。实验表明,无论实体是否有相关文本文档,这种方法都能提升链接预测任务的性能。
摘要由CSDN通过智能技术生成

Unsupervised Embedding Enhancements of Knowledge Graphs using Textual Associations

摘要

知识图谱嵌入对于表示和学习多关系数据是有帮助的,最近嵌入模型表现出从现有的数据库推断新事实的高效性。然而,这些精确的结构数据通常在数量上和范围上有限。因此,为了为了完整优化嵌入,考虑更广泛可用的信息源是重要的,比如文本。这篇文章描述了一个无监督的方法来兼容文本信息通过关联单词的嵌入来增强实体嵌入。该方法并不修改知识图谱嵌入的优化目标,允许和现有的嵌入模型集成。考虑文本数据的两种不同形式,针对每种情况提出了不同的嵌入增强。第一种情况下,每个实体有一个相关联的文本文档描述它。第二种情况下,没有可用的文本文档,而是实体以单词或短语的形式出现在文本片段的非结构化语料库中。实验表明,当应用于多种不同的知识图嵌入模型时,这两种方法都可以改善链接预测任务。

本文模型

关系提取是指通过识别相关文本文档中提到的新三元组来扩展现有知识图谱。大多数关系提取方法都需要远程监控,以便进行训练。启发式技术通常用于以这种方式自动对齐现有知识图谱和文本。

然而,因为一个句子中两个实体的同时出现并不一定意味着该句子说明了它们之间的关系,这导致了高噪音。

本文提出的方法针对两种情况:

  1. 有一段文本针对某个特定的实体
  2. 一段文本没有特定的主题,但是包含实体。

针对第一种情况:如图一所示

image-20211025145207276

图中是实体描述和非结构化的语料库的展示,分别对应文中提到的第一类和第二类情况。

对于实体描述这种情况,可以使用如下公式获得实体的嵌入:

e i = A i W ∥ A i ∥ 1 \mathbf{e}_{i}=\frac{\mathbf{A}_{i} \mathbf{W}}{\left\|\mathbf{A}_{i}\right\|_{1}} ei=Ai1AiW
式中,W为 n w ∗ d n_w * d nwd的单词向量矩阵, n w n_w nw是单词库中的单词数, d d d是嵌入向量的维度。 A i A_i Ai是个 n w n_w nw维的向量, A i k A_{ik} Aik表示 w k w_k wk在实体的描述文本中出现的次数。

上式存在的一个问题是,描述中的所有单词都被同等程度的对待,事实上,某些词比其他词更适合预测一段关系。文中引入了 B B B矩阵来解决该问题, B j k B_{jk} Bjk表示单词 w k w_k wk在预测关系 r j r_j rj时的重要性。那么实体的嵌入向量可表示为:

e i ( r j ) = ( A i ⊙ B j ) W ∥ A i ⊙ B j ∥ 1 \mathbf{e}_{i}^{\left(r_{j}\right)}=\frac{\left(\mathbf{A}_{i} \odot \mathbf{B}_{j}\right) \mathbf{W}}{\left\|\mathbf{A}_{i} \odot \mathbf{B}_{j}\right\|_{1}}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值