【论文笔记】On Multi-Relational Link Prediction with Bilinear Models

最新推荐文章于 2022-11-24 14:02:10 发布

CodingJazz

最新推荐文章于 2022-11-24 14:02:10 发布

阅读量212

点赞数

文章标签：人工智能机器学习知识图谱

本文链接：https://blog.csdn.net/weixin_40530554/article/details/124188129

版权

摘要

本文的主要目的是探索文献中提出的各种双线性模型的表达能力以及它们之间的联系。特别是在嵌入上施加某些附加约束能否得到一个能表示所有关系的通用模型，以及各种模型之间是否存在包容关系。

背景

也许最基本的嵌入模型是由双线性模型给出的。这种模型通过计算加权和来预测每个事实R（e1，e2）的“分数”，其中权重取决于e1和e2的实体嵌入的成对交互的R-值。分数用于根据实体的预测真实性对其进行排序。双线性模型的训练和使用效率相当高，可以提供良好的预测性能（Trouillon和Nickel，2017）。

多关系链接预测

π（S）表示与评分矩阵S相关联的唯一排序矩阵，评分越高，排名越低，如：
在这里插入图片描述
我们将π重载，使其也适用于张量、矩阵集和张量集。
双线性模型是评分函数为a_i^TRa_j的模型。
RESCAL是一个无约束双线性模型

RESCAL可以看作是推荐系统中突出的低秩矩阵分解方法对多个关系的扩展。
DISTMULT：

DISTMULT可以看作是RESCAL的一种变体，它对关系矩阵施加对角性约束。由于这个限制，它只能模拟对称关系。该模型相当于INDSCAL张量分解
HolE:

⋆ 指ai和aj之间的循环相关性，即：

使用循环卷积的想法与联想记忆有关（Nickel、Rosasco和Poggio 2016）。Hayashi和Shimbo（2017）提供了另一种关于ComplEx的观点，下面讨论。
ComplEx:

这里的定义域都是复数集。其中Re（·）提取复数的实部。ComplEx表面上与DISTMULT有关，但使用复数参数矩阵。请注意，a_i^T diag（r_k）a_j不保证是实数。
TransE:

与上述模型相比，TransE是基于翻译的模型，而不是基于因式分解的模型。翻译的使用——即实体嵌入之间的差异——受到Word2Vec的词语类比结果的启发（Mikolov等人，2013年）。注意，TransE也可以与L1范数而不是L2范数一起使用；我们始终关注上面给出的L2变体。

包含和表达

包含

首先探讨不同模型类之间的包含关系，以及包含所需的实体表示的大小。
π(M_t1)⊆ π(M_t2)，则M_t2包容M_t1。若M_t2严格地包含m_t1，表明M_t2严格地比M_t1更具表达性。
定理1：
在这里插入图片描述
证明：

上述证明表明，在等式（1）中规定的约束条件下，TransE可以被视为双线性模型。

定理2：
在这里插入图片描述该定理意味着r>=2的RESCAL模型不能用任何TransE模型表达，无论其大小如何。
证明：
Nickel、Rosasco和Poggio（2016）认为，HolE可以被视为RESCAL的压缩版本，并隐含地建立了与RESCAL的包容关系。
定理3：

证明：
Hayashi and Shimbo (2017)证明，因此
推论1：
在这里插入图片描述
最后，由于DISTMULT与RESCAL的不同之处在于DISTMULT添加了对角性约束，因此我们直接得到：
定理4：

普遍性

本节主要讲的就是当r的上界为多大时可以用一种通用的模型代替所有模型
【这部分证明不太看得懂。。。需要多花点时间理解并推导，先放上来】
在这里插入图片描述

一致的排名

本节是找一个与NNK的布尔张量B一致的评分张量P。即如果b_ijk=1,b_i’j’k’=0，则p_ijk>p_i’j’k’。即1的排名要高于0的。
在这里插入图片描述

训练

基于边缘的通用培训框架

在实践中，基于边际的框架通常会导致更快的培训时间，因为它们专注于正负三元组的“信息”对，也就是说，它们忽略了模型已经或多或少很好地表示的部分数据。
在这里插入图片描述

关系级集成

我们的实验研究表明，不同模型的相对性能是依赖于关系的。因此，一种更有希望的方法是在关系级别上组合模型。
我们的集成是基于叠加的。元学习器用于组合各个模型生成的排序矩阵，以便最大化某些精度度量。这里我们使用逻辑回归。为此，我们为每个关系构建了一个数据集，其中包含其所有正三元组以及等量的负三元组，这些负三元组是通过按照与训练单个模型相同的策略随机扰动每个正三元组而获得的。对于逻辑回归，我们使用个体模型的重标分数作为特征，使用正/负类别标签作为响应变量。根据不同模型的分数范围的不同，重新调整比例；我们将每个特征线性地重新缩放到范围[0,1]

实验

在这里插入图片描述

实体排名：对于单个模型，结果表明，模型性能取决于关系类别。没有哪个模型在所有类别中都表现最佳。
关系级集成提高了HITS@10还有MRR的性能。然而，MR的性能并没有得到改善，主要是因为该指标对低等级的三元组很敏感。请注意，向集合中添加重新缩放是有帮助的。最后，RESCAL、TransE和HolE的集成表现最佳。
在这里插入图片描述