TransH-Knowledge Graph Embedding by Translating on Hyperplanes 翻译

最新推荐文章于 2022-12-24 13:07:03 发布

BodyCsoulN

最新推荐文章于 2022-12-24 13:07:03 发布

阅读量381

点赞数

分类专栏：论文笔记文章标签：知识图谱机器学习人工智能

原文链接：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.486.2800&rep=rep1&type=pdf

版权

论文笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Knowledge Graph Embedding by Translating on Hyperplanes

摘要

处理把一个大规模的由实体和关系组成的知识图谱嵌入到连续的向量空间中。TransE是最近提出来的一个很有希望的方法，是非常高效的，实现了最先进的预测性能。我们讨论了一些应该在嵌入中考虑到关系的映射属性，比如自反，一对多，多对一和多对多。我们注意到TransE在处理这些属性时做的并不好。一些复杂的模型有足够的能力保持这些映射属性，但在这个过程中牺牲了效率。为了在模型容量和效率中做很好的权衡，我们在这篇文章中提出了TransH方法，将关系建模为一个超平面，同时还有一个转换操作。在这种方式下，我们能够很好的保持关系的映射属性，并且与TransE有着几乎相同的复杂度。另外，因为一个知识图谱通常远没有补全，如何建立负样本来减少训练中的假阴性标签是非常重要的。利用关系的一对多/多对一的映射属性，我们提出了一个简单的小技巧来减少假阴性标注。我们进行了大量的链路预测实验，比如像wordNet和Freebase在benchmark数据集的三元组分类和事实提取。实验表明，TransH在预测准确性方面比TransE有显著提高，且具有可比的放大能力。

Introduction

知识图谱成为支持很多AI相关的应用的非常重要的资源，比如web/移动搜索，问答等等。知识图谱是由实体作为节点，关系作为不同的边组成的一个多关系图。边的一个实例是一个事实三元组(头实体，关系，尾实体)(表示为 $(h, r, t)$ )。近十年来，在建立大规模的知识图谱中有一些伟大的成就。然而，支持计算的一般范式仍然不清楚。两个主要的困难是：1）知识图谱是语义和逻辑系统，应用通常涉及在连续空间中的大量计算；2）在一个图中聚合全球的知识比较困难。传统的形式逻辑推理方法在处理真实大规模知识图上的远程推理时既不易处理，也不健壮。最近有人提出一个新的方法来处理这个问题，尝试把一个知识图谱嵌入到连续的向量空间中，同时保持着原始知识图谱的某些性质。例如实体 $h$ (或者 $t$ )在向量空间中被表示为一个点 $\mathbf h$ (或者 $\mathbf t$ )，每个关系 $r$ 在该空间中建模为一个操作用向量 $\mathbf r$ 表示，比如平移、投影等。通过最小化一个涉及所有关系和实体的全局损失函数，得到实体和关系的表示。因此，即使是单个实体/关系的嵌入表示也会对整个知识图中的全局信息进行编码。之后，嵌入表示就能用来服务各种各样的应用了。最直接的想法就是在知识图谱中完善缺失的边。对所有的候选三元组，我们能通过检查 $\mathbf h$ 和 $\mathbf t$ 在以 $\mathbf r$ 为特征的操作下表示的兼容性来简单确认其正确性。

一般来说，知识图谱嵌入将实体表示为一个 $k$ 维的向量 $\mathbf h$ (或者 $\mathbf t$ )，并且定义一个评分函数 $f_{r}(\mathbf{h}, \mathbf{t})$ 来衡量三元组 $(h, r, t)$ 在嵌入空间中的合理性。评分函数意味着描述关系 $r$ 的一对实体的转换 $\mathbf r$ 。比如，在转换方法(TransE)中，以平移（向量）r为特征的关系。对于不同的评分函数，隐含变换在简单差异 (Bordes et al. 2012)、平移 (Bordes et al. 2013b)、仿射 (Chang, Yih, and Meek 2013)、一般线性 (Bordes et al. 2011)、双线性（Jenatton 等人，2012 年；Sutskever、Tenenbaum 和 Salakhutdinov 2009 年）和非线性变换（Socher 等人，2013 年）。因此，模型复杂性（在参数数量方面）变化很大。（详见表1和“相关工作”部分。）

在之前的方法中，TransE由于其简单高效，同时实现了最先进的预测性能是很有前景的一个。然而，我们发现，当关系有着自反射、一对多、多对一、多对多的映射属性时，TransE的处理有瑕疵。之前的工作很少讨论这些映射属性在嵌入中的角色。一些先进的模型有更多自由参数，有能力保持这些映射属性，然而，模型的复杂度和运行时间也相应地显著增加。此外，这些先进模型全面的预测性能甚至比TransE还要糟糕。这驱使我们提出一种方法，能够较好的权衡模型复杂度和效率，从而在继承效率的同时，克服TransE的缺陷。

在这篇文章中，我们从分析TransE在自反射/一对多/多对一/多对多关系的问题入手。相应地，我们提出了一种方法，TransH，将关系解释为在超平面上的一种平移操作。在TransH中，每个关系都由两个向量表示，超平面的法向量( $\mathbf w_r$ )和超平面上的平移向量 $\mathbf d_r$ 。对于黄金三元组 $(h, r, t)$ （黄金三元组：that it is correct in terms of worldly facts,）在超平面上的投影 $\mathbf h 和 \mathbf t$ ，期望以很低的误差通过转换向量 $\mathbf d_r$ 连接起来。这种简单的方法克服了TransE在处理自反射/一对多/多对一/多对多/的关系时的缺陷，同时模型的复杂度几乎和TransE一样。至于模型的训练，我们指出谨慎地构建负标签在知识嵌入中非常重要。通过依次利用关系的映射特性，我们提出了一个简单的小技巧来假阴性标注的机会。我们在链路预测的任务上进行了广泛的实验，在benchmark数据集上的三元组分类和事实提取，在不同的预测准确度指标上表现出令人印象深刻的提升。我们也表明TransH的运行时间与TransE相当。

通过TransH嵌入

我们首先描述常用的符号。 $h$ 表示头实体， $r$ 表示关系， $t$ 表示尾实体。粗体字母 $\mathbf{h, r, t}$ 代表相应的嵌入表示。 $\Delta$ 代表黄金三元组的集合， $\Delta ^ \prime$ 代表错误三元组的集合。因此我们使用 $\in \Delta$ 表示“ $(h, r, t)$ 是正确的”。 $E$ 是实体集合。 $R$ 是关系集合。

嵌入中关系的映射属性

正如Introduction和Related Work中介绍的，TransE把关系 $r$ 建模为一个转换向量 $\mathbf r \in \mathbb R^k$ ，并假定如果 $(h, r, t)$ 是黄金三元组的话，误差 $\|\mathbf{h}+\mathbf{r}-\mathbf{t}\|_{\ell_{1} / \ell_{2}}$ 就会低。它很好地适用于不可伸缩和一对一关系，但是当处理自反和多对一/一对多/多对多的关系时存在问题。

考虑无误差嵌入的理想情况，如果 $\in \Delta,\text {则}\mathbf{h}+\mathbf{r}-\mathbf{t}=\mathbf{0}$ ，我们可以直接从TransE模型中得到以下结果。

如果 $\in \Delta \operatorname{且}(t, r, h) \in \Delta$ ，即 $r$ 是一个自反映射，则 $\mathbf{r}=\mathbf{0} \text { 且 } \mathbf{h}=\mathbf{t}$
如果 $\forall i \in\{0, \ldots, m\},\left(h_{i}, r, t\right) \in \Delta$ , 即 $r$ 是一个多对多映射, 那么 $\mathbf{h}_{0}=\ldots=\mathbf{h}_{m}$ . 类似的, 如果 $\forall i,\left(h, r, t_{i}\right) \in \Delta$ , 即, $r$ 是一个一对多映射, 那么 $\mathbf{t}_{0}=\ldots=\mathbf{t}_{m}$ 。

在TransE中，导致上述结果的原因是涉及任何关系时，实体的表示是相同的，当涉及到不同的关系时，忽略了实体的分布式表示。尽管TransE不会让黄金三元组强行有 $\mathbf{h}+\mathbf{r}-\mathbf{t}=\mathbf{0}$ ，它使用排名损失来鼓励黄金三元组的较低错误和不正确的三元组的较高错误（Bordes et al. 2013b），上述命题中的趋势仍然存在。

超平面上的转换TransH

在这里插入图片描述

为了克服TransE在建模///关系上的问题，我们提出了一种模型，该模型使实体在涉及不同关系时能够具有分布式表示。如图1所示，对于关系 $r$ ，我们将关系特定的平移向量 $\mathbf d_r$ 放置在关系特定的超平面 $\mathbf w_r$ （法向量）中，而不是在实体嵌入的同一空间中。具体来说，对于三元组 $(h, r, t)$ ，嵌入向量 $\mathbf h \text{和} \mathbf t$ 首先投影到超平面。投影分别表示为 $\mathbf{h}_{\perp} \text { 和 } \mathbf{t}_{\perp}$ 。如果 $(h, r, t)$ 是黄金三元组，我们期望 $\mathbf{h}_{\perp} \text { 和 } \mathbf{t}_{\perp}$ 可以以低误差通过超平面上的平移向量 $d_r$ 连接。因此我们定义了一个评分函数 $\left\|\mathbf{h}_{\perp}+\mathbf{d}_{r}-\mathbf{t}_{\perp}\right\|_{2}^{2}$ 来衡量三元组不正确的合理性。通过限制 $\left\|\mathbf{w}_{r}\right\|_{2}=1$ ，很容易得到：
$\mathbf{h}_{\perp}=\mathbf{h}-\mathbf{w}_{r}^{\top} \mathbf{h} \mathbf{w}_{r}, \quad \mathbf{t}_{\perp}=\mathbf{t}-\mathbf{w}_{r}^{\top} \mathbf{t} \mathbf{w}_{r}$
那么评分函数为：
$f_{r}(\mathbf{h}, \mathbf{t})=\left\|\left(\mathbf{h}-\mathbf{w}_{r}^{\top} \mathbf{h} \mathbf{w}_{r}\right)+\mathbf{d}_{r}-\left(\mathbf{t}-\mathbf{w}_{r}^{\top} \mathbf{t} \mathbf{w}_{r}\right)\right\|_{2}^{2}$
对于错误的三元组，期望评分较高；对于黄金三元组，期望评分较低。我们称这个模型为TransH。模型的参数包括所有的实体嵌入 $\left\{\mathbf{e}_{i}\right\}_{i=1}^{|E|}$ ，所有的关系的超平面和转换向量 $\left\{\left(\mathbf{w}_{r}, \mathbf{d}_{r}\right)\right\}_{r=1}^{|R|}$ 。

在TransH中，通过引入投影到特定关系的超平面的机制，使得一个实体在不同的关系/三元组中扮演不同的角色。

训练

为了激励黄金三元组和错误三元组的分化，我们使用以下基于边际的排序损失：
$\mathcal{L}=\sum_{(h, r, t) \in \Delta} \sum_{\left(h^{\prime}, r^{\prime}, t^{\prime}\right) \in \Delta_{(h, r, t)}^{\prime}}\left[f_{r}(\mathbf{h}, \mathbf{t})+\gamma-f_{r^{\prime}}\left(\mathbf{h}^{\prime}, \mathbf{t}^{\prime}\right)\right]_{+}$
其中， $[x]_{+} \text{定义为} \max (0, x)$ ， $\Delta$ 是阳性三元组的集合， $\Delta_{(h, r, t)}^{\prime}$ 表示通过阴性三元组的集合。 $\gamma$ 是分割阳性三元组和阴性三元组的边距。下一小节将介绍构造 $\Delta_{(h, r, t)}^{\prime}$ 的细节。

当我们最小化损失的时候考虑了以下约束：
$\begin{aligned} &\forall e \in E,\|\mathbf{e}\|_{2} \leq 1, / / \text { scale } \\ &\forall r \in R,\left|\mathbf{w}_{r}^{\top} \mathbf{d}_{r}\right| /\left\|\mathbf{d}_{r}\right\|_{2} \leq \epsilon, / / \text { orthogonal } \\ &\forall r \in R,\left\|\mathbf{w}_{r}\right\|_{2}=1, / / \text { unit normal vector } \end{aligned}$
约束(2)保证转换向量 $\mathbf d_r$ 在超平面中。没有直接用约束来优化损失函数，我们通过软约束将其转换为以下无约束损失：
$\begin{aligned} \mathcal{L} &=\sum_{(h, r, t) \in \Delta} \sum_{\left(h^{\prime}, r^{\prime}, t^{\prime}\right) \in \Delta_{(h, r, t)}^{\prime}}\left[f_{r}(\mathbf{h}, \mathbf{t})+\gamma-f_{r^{\prime}}\left(\mathbf{h}^{\prime}, \mathbf{t}^{\prime}\right)\right]_{+} \\ &+C\left\{\sum_{e \in E}\left[\|\mathbf{e}\|_{2}^{2}-1\right]_{+}+\sum_{r \in R}\left[\frac{\left(\mathbf{w}_{r}^{\top} \mathbf{d}_{r}\right)^{2}}{\left\|\mathbf{d}_{r}\right\|_{2}^{2}}-\epsilon^{2}\right]_{+}\right\} \end{aligned}$
其中， $C$ 是一个加权软约束重要性的超参数。

我们采用随机梯度下降(SGD)来最小化以上损失函数。黄金三元组(知识图谱中的三元组)的集合被随机遍历多次。当访问到一个黄金三元组时，阴性三元组被随机构造(根据下一节)。在最小批(mini-batch)后，计算梯度并更新模型参数。注意到约束(3)在等式(4)中消失。相反，为了满足约束(3)，我们在访问每一个最小批之前将每个 $\mathbf{w}_{r}$ 投影到单元l2-ball。

l2-ball:https://stackoverflow.com/questions/36661440/what-is-l2-ball-l1-penalty-and-optimization-for-sparseness-in-sparse-filtering

减少假阴性标签

正如前节所述，训练包括为黄金三元组构建阴性三元组。比如，在TransE中，对于黄金三元组 $(h, r, t)$ ，阴性三元组 $(h^\prime, r, t^\prime)$ 通过从E中随机采样的的实体对 $(h^\prime, t^\prime)$ 得到。然而，由于真实的知识图谱通常不够完善，这种随机采样的方法可能往训练中引入了很多假阴性标签。

我们采用了一种不同的方法，TransH。在污染三元组时，我们设置了不同的概率来替换头实体或尾实体，这取决于关系的映射属性，比如一对多，多对一或者多对多。如果关系是一对多的话，我们更多的倾向于替换头实体；如果关系是多对一的话，那么更有可能替换尾实体。这样，生成假阴性标签的机会就减少了。具体来说，在关系 $r$ 的所有三元组中，我们首先得到以下两个统计数据：1）每一个头实体的尾实体的平均数量，表示为 $t p h$ ；2）每一个尾实体的头实体的平均数量，表示为 $h p t$ 。然后我们定义了一个参数为 $\frac{tph} {tph+hpt}$ 的伯努利分布进行采样：给定关系 $r$ 的黄金三元组 $(h, r, t)$ ，以概率 $\frac{tph} {tph+hpt}$ 替换头实体来污染该三元组，以概率 $\frac{tph} {tph+hpt}$ 替换尾实体来污染该三元组。

实验

我们对相关方法进行了三项任务的评估：链接预测，三元组分类，关系事实提取。这三项任务从不同的角度和应用上下文评估了预测未发现三元组的准确性。

链接预测

这项任务是在 $h$ 或者 $t$ 缺失时补全三元组的，即，给定 $(h, r)$ 预测 $t$ ，给定 $(r, t)$ 预测 $h$ 。这项任务并非要求一个最好的答案，而是更强调对知识图谱中的实体候选集排序。

我们使用TransE中用到的两个相同的数据集，WN18，Wordnet的子集；FB15k，Freebase一个相对稀疏的子图，其中所有的实体都出现在Wikilinks数据库中。这两个数据集都发布在Bordes。表二中有更多细节。

评估协议。我们遵从TransE中相同的协议：对每一个测试三元组 $(h, r, t)$ ，我们用知识图谱中的每个实体 $e$ 替换尾 $t$ ，并计算损坏的三元组 $(h 、 r 、 e)$ 上的不相似性分数（根据评分函数 $f_r$ ）。按升序排列分数，然后我们得到原始正确三元组的秩。类似的，我们通过破坏头 $h$ 得到 $(h, r, t)$ 的另一个秩。在所有测试三元组中，报告了两个指标：平均秩（表示为 $M e a n$ ）和秩不大于10的比例 $(表示为 H i t s @ 10)$ 。这称为“原始”设置。请注意，如果知识图谱中存在损坏三元组，那么将其排在原始三元组之前也没有错，因为该三元组也是正确的。为了消除这个因素，我们在获得每个测试三元组的秩之前，删除了存在于训练集、有效集或测试集中的损坏三元组。此设置称为“过滤”。在这两种情况下， $M e a n$ 越低越好， $H i t s @ 10$ 越高越好。

实现。因为数据集相同，我们直接复制了来自Bordes的几个基线的实验结果。在训练TransH时，我们为SGD使用了在 ${0.001,0.005,0.01\}$ 中的学习率 $\alpha$ ，在 ${0.25,0.5,1,2\}$ 中的边际 $\gamma$ ，嵌入维度 $k为\{50,75,100\}$ ，权重 $C$ 为 ${0.5625,0.0625,0.25,1.0\}$ ，批大小 $B\{20,75,300,1200,4800\}$ 。最佳参数由验证集确定。关于构建负标签的策略，我们使用“unif”表示以等概率替换头部或尾部的传统方式，并使用“bern”。表示通过用不同的概率替换头部或尾部来减少假阴性标签。在"unif"的设置下，最佳配置为：WN18上， $\alpha=0.01, \gamma=1,$ $k = 50, C = 0.25$ , $B = 75$ ； FB15k上$ \alpha=0.005, \gamma=0.5, k=50,$ $C = 0.015625$ , $B = 1200$ 。在"bern"设置下，最佳配置为： $\alpha=0.01, \gamma=1, k=50, C=0.25$ , and $B = 1200$ on WN18; $\alpha=0.005, \gamma=0.25, k=100, C=1.0$ , and $B = 4800$ on FB $\mathrm{k}$ .

对这两个数据集，我们遍历所有训练的三元组500轮。

结果。结果展示在表三中。简单模型TransE，TransH甚至是原始基线非结构化在 $M e a n$ 方面优于WN18上的其他方法。这可能会使WN18上的关系数量相当小，忽略关系不同的类型也可以接受。在FB15k上，TransH始终优于其余方法。我们假设，与TransE相比，这些改进是由于放松了几何假设，因此可以更好地处理自反/一对多/多对一/多对多关系。为了证明这一点，我们挖掘了不同的关系映射种类的详细结果，如表4所示。在1345葛关系中，24%是一对一的，23%是一对多的，29%是多对一的，24%是多对多的。总的来说，TransE在FB15k上表现为亚军。然而，它在一对多和多对一关系上的相对优势不如在一对一关系上的优势。TransH在一对多、多对一和多对多关系方面为TransE带来了有希望的改进。超出我们的预期，在一对一关系上的性能也极大的提升了 $(>60\%)$ 。这可能由于图属性：实体由关系连接，因此更好的嵌入某些部分，总体产生更好的结果。表5展示了在一些典型的一对多、多对一、多对多、自反关系上的结果。TansH比起TransE的提升在这些关系上非常明显。
在这里插入图片描述

三元组分类

这项任务是确认给定的三元组 $(h, r, t)$ 是否正确，即，三元组的二分类。在Socher中用来评估NTN模型。

这项任务中使用了三个数据集。其中有两个和NTN中相同，WN11，WordNet的子集，FB13，Freebase的子集。因为WN11和FB13包含的关系数量很少，我们也用包含更多关系的FB15k数据集。详见表2。

评估协议

实现

结果

文本中的关系提取

结论

本文中，我们介绍了TransH，一个把知识图谱嵌入连续向量空间的新模型。TransH克服了TransE在自反、一对多、多对一、多对多关系上的不足，同时继承了TransE的效率。对链接预测、三元组分类和关系事实提取任务的大量实验表明，TransH 为 TransE 带来了有希望的改进。本文中减少假阴性标签的小技巧也被证明是有效的。
参考：
https://blog.csdn.net/MonkeyDSummer/article/details/85273843

https://zhuanlan.zhihu.com/p/156937012