Iterative Entity Alignment via Knowledge Embeddings

概述:

         本文主要解决的问题是不同KG间的实体对齐问题。之前解决这个问题主要依靠一些额外的信息来完成,比如维基百科。但在本文中,我们依靠aligned entities也就是已经对齐的实体作为信息,在KRL(知识嵌入)的基础上,将不同实体合并到同一语义空间中,并且采用迭代的方法提高对齐的效果。

具体模型:

         模型主要分为三个部分:Knowledeg Embeddings-我们通过KRL方法将不同KG的实体分别生成对应的嵌入矩阵。Joint Embedding-我们依靠aligned entities 将不同KG中的知识嵌入合并到同一语义空间。Iterative Alignment:我们生成新的aligned entities后,将其合并到对齐序列中,对合并后的语义空间进行更新,从而使更多的实体得到对齐。

         同时,我们在最后判断时采用soft alignment strategy(软对齐策略),这样可以使我们在迭代过程中重新考虑现有的软对齐。

         下面我们具体的来说一下各个部分:

         Knowledge Embedding:

TransE:

         他的原理是将关系也当做一个向量,与头向量 尾向量满足一定的语义关系,在已知关系r的情况下,我们可以定义一个energy function:

        

         可以定义为实体间的关系程度。

         在经过负样本生成后,在此基础上构建损失函数,从而实现知识嵌入。

PtransE:

         PtransE便是在TransE的基础上考虑到了多步路径的问题,在原先的score function后面加了一个路径的关系的正则项

这个公式还是比较好理解的,这里就不多说了,具体的可以去看论文。

         Joint Embedding:

关于基于对齐实体序列的实体对齐,这里提出了三个model,分别为:

Translation-based Model:

         这个是受TransE等翻译模型的启发,将实体的对齐定义为一个对齐关系,也就是说,给定两个实体e1,e2,计算他们之间的对齐关系向量,那么我们可以定义一个energy function:

         类似的,提出下一个模型:

Linear Transformation Model:

         我们定义一个转化矩阵M,满足,在此基础上定义一个类似的energy funcrtion

对于上面两个模型来说,是同一类型的,在energy function的基础上,定义一个score function:

         我们可以训练aligned entities 从而使得J最小化(这个地方其实我还是有点存疑的,因为在我理解,这个地方是单纯的训练Mr,但是这样用一个rM匹配所有的对齐实体,感觉不太靠谱,可是我也没有更好的解释方法

Parameter Sharing Model:

         这个方法更加简单粗暴,即将强制两个向量相等,可以两个向量相加取平均值。

         Iterative Alignment:

我们现在已经将现有的对齐实体映射到同一向量空间中,我们基于之前的Joint Embedding,可以对现有的未对齐的实体进行处理。对两个实体来说,我们需要计算他们的语义距离,无论是Translation-based Model还是Linear Transformation Model,都有对应的energy function,而对于Parameter Sharing Model来说,我们可以定义E(e1,e2)欧氏距离作为语义距离。

         因此,在定义语义距离的基础上,可以找到语义距离最小的实体,他便是对应的实体。很明显,我们可以通过newly aligned entities 对现有的joint embedding进行更新,从而得到更多的对齐实体,这也就是文章中提到的迭代,而迭代的方法,文章中提出了两个:

         Hard Alignment:

         对于Parameter SharigModel来说,直接将新的对齐实体加入到Joint Embedding中,然后进行更新

         Soft Alignment:

         Hard Alignment:可能会出很多问题,Soft Alignment会对每个新对齐的实体对进行打分,将新的实体对放到M中,打分的公式为:

         从这个公式可以看出,score主要基于语义距离,距离越小,分数越高。

最后我们定义一个M的score function:

        

这个function还是比较好理解的,两种距离的计算,乘以一个置信度R,可以说是一个比较综合的打分,目标是分数越来越高,并迭代的加入新的实体,从而保证整体的实体对齐程度。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值