【论文笔记】Analogical inference for multi-relational embeddings

github代码

摘要

提出了一个新的框架,用于根据嵌入实体和关系的类比性质优化潜在表示。

背景

多关系嵌入或知识图嵌入的任务是寻找实体和关系的潜在表示,以便更好地对知识图进行推理。如何利用不完全图中观察到的三元组来归纳图中未观察到的三元组是机器学习研究面临的一个严峻挑战。针对这项任务提出了多种统计关系学习方法,其中向量空间嵌入模型因其优越的性能和可扩展性而最为独特。这些方法的关键思想是找到实体和关系的降维表示,从而迫使模型在压缩过程中进行推广。这些方法的关键思想是找到实体和关系的降维表示,从而迫使模型在压缩过程中进行推广。这类有代表性的模型包括张量分解、神经张量网络、基于平移的模型、双线性模型及其变体、路径方法、基于全息表示的嵌入,以及利用附加位置信息以半监督方式预测不可见边的乘积图 。
尽管到目前为止,在多关系嵌入的研究方面做出了大量的努力并取得了巨大的成功,但仍缺少一个重要方面,即从类比推理的角度研究问题的解决方案,即严格定义实体和关系的多关系嵌入所需的类比性质,并提供算法解决方案,以优化嵌入物的相似性质。我们认为,类比推理对于知识库的完成尤其可取,因为例如,如果系统A(实体和关系的子集)类似于系统B(实体和关系的另一子集),那么B中未观察到的三元组可以通过镜像A中的对应项来推断。
尽管类比推理是经典人工智能(AI)中一个活跃的研究主题,但早期的计算模型主要关注基于规则的不可微推理,这很难扩展到非常大的知识库如何通过统计推断利用类比推理的直觉来自动嵌入非常大的知识图,到目前为止还没有研究过。
论文的创新点
1.一个新的框架,首次在多关系嵌入中显式地建模类比结构,并提高了性能;
2.以可微方式进行类比推理的算法解决方案,其实现与已知最快的关系嵌入算法一样可扩展;
3.关于我们的框架如何将几种有代表性的方法作为其特殊(和限制)情况提供统一观点的理论见解,以及为什么根据经验观察,这些情况的推广会导致我们的方法的优越性能。

相关背景

线性映射关系

评分函数为:
在这里插入图片描述

正规变换

正规阵:ATA=AAT
代表性的正规阵包括:

  1. 对称矩阵
    对称性意味着φ(s,r,o)=φ(o,r,s)。它们适用于建模对称关系
    AAT=ATA=A2
  2. 反对称矩阵
    φ(s,r,o)=−φ(o,r,s),适用于建模不对称关系
    AAT=ATA=-A2
  3. 旋转矩阵
    这表明关系r可逆为Wr−1永远存在。旋转矩阵适用于1对1关系(双射)的建模。
  4. 循环矩阵
    在HOLE中被隐式使用。通常与傅里叶域中潜在表示的学习有关。

类比推理框架

类比结构

【这个部分举的例子真好,感叹一下】

线性映射的交换约束

我们想要的线性映射的一个理想特性是,具有相同起始节点和结束节点的所有有向路径构成组合等价。定义“◦”表示组合等价
在这里插入图片描述上图中 r ◦ r’ = r’ ◦ r
表明a通过任一路径连接到d。我们称之为线性映射的可交换性,这是形成可交换平行四边形以及相应类比结构的必要条件。
两个关系(线性映射)的组合自然通过矩阵乘法实现,因此r ◦ r’ = r’ ◦ r表明:
W~r ◦ r’~= WrWr’= Wr’Wr
我们还可以进一步要求R中的任何一对关系满足上述的交换约束,因为对于某些实体的子集,它们可以同时出现在同一个交换平行四边形中。在这种情况下,我们说R中的关系是一个commuting family。
值得一提的是,正规阵在矩阵乘法下不是封闭的。因此,上面式子中的组合规则可能并不总是产生一个合法的新关系——Wr◦r’可能不再是一个正规阵。然而,正规阵中的任何commuting family在乘法下是封闭的。这从另一个角度解释了拥有一个commuting family的必要性。

优化目标

为了在表示之间施加类比结构,我们还要求与关系相关的线性映射形成一个正规阵的commuting family。因此ANALOGY的目标函数:
在这里插入图片描述(一般的目标函数没有下面的使得…其实该目标函数的意思就是让正三元组的得分更高 花体的l是损失函数)
第一个约束要求正规性,第二个约束要求交换性。

推理算法

因为上一章那个有约束的目标函数计算比较困难,所以需要另一个公式降低复杂度。
然后提出了两个引理
第一个引理表明任何实正规矩阵都可以块对角化成一个几乎对角的标准形式。第二个引理表明密集的关系矩阵集合{Wr}r∈R,如果相互交换,总是可以同时块对角化为另一个稀疏的几乎对角矩阵集合{Br}r∈R
于是就可以用这个矩阵B来计算目标函数。
因此寻找一个正交矩阵Q,使得WR=QBrQT,令u=vQ
在这里插入图片描述

代表性方法的统一观点

这章就是证明DistMult、ComplEx、HolE都可以被ANALOGY表示出来。

实验

损失函数使用logistic loss
在这里插入图片描述
σ为sigmoid激活函数。
使用SGD进行优化。使用AdaGrad来适应基于历史梯度的学习速率。
在这里插入图片描述

在这里插入图片描述
在具有大量关系的更困难的FB15K数据集上,我们的模型优于所有基线方法。ANALOGY在所有指标上都优于DistMult, ComplEx和HolE,因为后三个可以被视为我们方法的更受限版本。此外,我们断言HolE是ComplEx的一个特例,在同一表格中也证明了这个事实,即HolE的性能是由ComplEx决定的。
在这里插入图片描述

上图我们展示了ANALOGY的经验可伸缩性,它不仅在两个数据集上在几秒钟内完成一个epoch,而且还可以线性扩展嵌入问题的大小。与单线程AdaGrad相比,我们的异步AdaGrad超过16个CPU线程,在上FB15K和WN18分别提供了11.4和8.3倍的加速。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值