[论文学习]TDN: An Integrated Representation Learning Model of Knowledge Graphs


文章下载链接:https://github.com/ciecus/papers/blob/master/%E7%9F%A5%E8%AF%86%E5%92%8C%E8%AF%AD%E4%B9%89%E7%BB%93%E5%90%882019%E5%B9%B4%E6%96%B0%E6%96%87%E7%AB%A0/TDN-%20An%20Integrated%20Representation%20Learning%20Model%20of%20Knowledge%20Graphs.pdf
文章代码链接:暂无

文章主要内容

摘要

知识图谱在人工智能领域起到了非常重要的作用。知识图谱致力于将实体和关系投影到连续的低维空间中。这种表示学习的方法可以通过预测潜在的三元组(head,relation,tail)用来完善知识图。在现有的方法种,人们主要集中于利用已有的三元组知识,但是忽略了融合文本信息和知识网的拓扑结构。这些问题导致了歧义问题。为了解决这个问题,并且构造一个更加准确的知识网,我们提出了一种新的表示学习模型,TDN模型,这个模型融合了三元组信息,文本描述信息,以及知识图的网络结构。本文将详细介绍TDN的框架结构及TDN因子表示的方法。为了验证提出来的模型的有效性,我们在实际数据的链接预测任务验证我们的模型,实验结果验证了我们模型的有效性。
关键词:人工智能;embedding,知识图,知识表示

前言

知识图在人工智能领域起到了非常重要的作用,比如智能问答,网络搜索等。知识图是一个包含了大连三元组(head,relation,tail)的语义网络,其中head和tal是网络中的实体(entity)。知识图一个非常重要的任务就是利用已有的知识去预测潜在的事实去完善我们的知识图。知识图的完善近似于社交网络分析中的链接预测,但是它更具难度。因为知识图包含了很多象征意义的变形以及逻辑信息,链接预测需要不能能考虑到点的存在性还需要考虑点的语义信息和类型。因此,传统的链接预测方法并不适用于知识图的完善,为了解决这个问题,基于翻译(Trans)方法的知识表示的方法被提出,此类方法通过将知识图中的实体和关系投影到连续的低维空间中,去构建知识图。在本文中我们把这种机制叫做vector embedding(因子表示方法)。现有的知识表示方法仅仅利用三元组星系,忽略了关于实体的语义信息以及网络的拓扑结构,这些都会导致知识网的歧义问题。并且,大多数知识图都有一些关于实体的描述信息,并且这些描述信息包含重要的上下文信心。上下文信息的缺失导致不能够细粒度的分析途中的关系,以至于不能够正确的利用知识图进行推理,如图一(a)所示。并且,对于知识图来说,所有的三元组连写起来构建了一个有特定拓扑结构的网络,也就是说,任意的三元组都不是孤立的,而是手其它三元组的影响。因此,每一个三元组都应该有他们对网络拓扑结构自己的贡献。但是现有的模型忽略了这些信息(如图1(b)所示)。因此,这些信息的丢失都会造成知识图完善的不准确性。

图1(a)展示了维多利亚是加拿大和seychelles的首都,如果基于传统的翻译模型,就会输出一样的实体,但是如果结合语义分析,应该输出不一样的实体。图1(b)展示了每一个三元组都在网络拓扑结构中贡献了自己的力量。

为了解决这些问题,本研究提出了一种新的表示模型TDN模型,去综合解决三元组信息(T),实体描述信息(D)和网路结构信息(N)。这些特征都被融合进统一的特征空间,知识图可以在这个空间中没有歧义的进行计算和分析。本文的主要贡献如下:

  • 提出了一个融合的知识表示模型,三元组信息,实体描述信息和网络结构都被考虑起来,并且能够消除知识图中的歧义(KG can be represented with less ambiguity)。
  • 通过在这种方法表示实体和关系,知识图能够更准确的完善。

本文的其余部分按照下面的组织架构安排:我们首先介绍了相关工作,然后对我们提出的模型进行描述,接着我们提出了我们完整的TDN模型构建方法。此外,为了验证我们模型的有效性,我们设计了实验,最后我们总结了我们的工作,并且提出了接下来的工作。

相关工作

当前的知识表示学习可以被分成两种类别,基于三元组的翻译表示模型和基于额外信息的翻译模型(the extra-information-based Trans embedding)。前者仅仅使用了三元组的象征表示,后者采用额外的信息比如文本信息图像信息去表示我们的实体。对于一个经典的翻译表示模型来说,TransE将实体和关系映射到一个低维特征空间,然后每一组三元组都通过损失函数,进行表示。 E ( h . r , t ) = ∣ ∣ h + r − t ∣ ∣ E(h.r,t)=||h+r-t|| E(h.r,t)=h+rt其中h,r,t分别被成为头实体,关系和尾实体。TransE模型非常的简单有效,但是 因为把实体和关系映射到统一的向量空间,它表示多元三元组关系的能力(1to N,N to 1,N to N)的能力就比较局限,为了客服这个问题,TransH被提出了,它通过把向量投影到一个超平面,完成特定关系的投影。TransH模型可以让同样的实体在不同的关系超平面中扮演不同的决策,从而实现多元关系的问题。此外,TransR模型通过翻译矩阵(transformation matrix)去区分实体空间,关系空间,并且将这些实体关系对,映射到不同的关系空间中,TransR的损失函数被定义为:
E ( h , r , t ) = ∣ ∣ h M r + r − t M r ∣ ∣ E(h,r,t)=||hM_r+r-tM_r|| E(h,r,t)=hMr+rtMr
通过翻译矩阵 M r M_r Mr,TransR可以提供多样的翻译关系此外TransR的拓展TransD模型通过使用不同的翻译矩阵,在知识图中实现了更加多元的表示。

大多现存的基于三元组的翻译模型只考虑了三元组信息,但是忽略了文本描述中的语义信息。为了弥补这个缺陷,许多基于额外信息的Trans模型被提出,将语义信息融合到实体的向量表示中。通过文本表示的诡异秒,基于描述的知识表示(DKRL)将每一个实体描述使用CNN将文本信息投影到一个文本空间空间中,然后将基于三元组的TransE表示和基于文本的表示进行拼接,实验证明了DKRL可以显著提升知识图谱完成的有效性。此外,基于Bi-LSTM的自编吗器,A-LSTM被提出去表示实体的描述,IKRL在知识图中加入图片信息提升知识完善的有效性,近期也有一些问题提出利用结构信息去改善embedding的效果,但是他们通常只利用本地的结构信息,没有考虑不同的位置的影响,同时也没有用上文本描述信息。

基于TDN的表示的框架结构

TDN提供了一个混合框架结构可以在图中同时融合文本描述信息和结构信息。通过TDN,实体的embedding表示是通过下述方法定义的:
e = e s ⊕ e d ⊕ e g e = e_s\oplus e_d \oplus e_g e=esedeg,其中 e s , e d , e g e_s,e_d,e_g es,ed,eg分别是算远足,文本,和网络向量, ⊕ \oplus 代表拼接(concatentation)。

本文中,embedding的方法严格遵循上述公式的叫做完全TDN表示。此外TDN模型有一些变种方法,当 e d e_d ed为= 或者 e g e_g

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值