论文解读：（TransE）Translating Embeddings for Modeling Multi-relational Data

最新推荐文章于 2025-02-19 21:38:45 发布

华师数据学院·王嘉宁

最新推荐文章于 2025-02-19 21:38:45 发布

阅读量1.5w

点赞数 27

分类专栏： # 知识表示学习论文解读文章标签：知识表示知识图谱

本文链接：https://blog.csdn.net/qq_36426650/article/details/103316877

版权

论文解读同时被 2 个专栏收录

104 篇文章

订阅专栏

知识表示学习

6 篇文章

订阅专栏

论文解读：（TransE）Translating Embeddings for Modeling Multi-relational Data

表示学习是深度学习的基石，正式表示学习才能让深度学习可以自由的挖掘更深层次的特征。自word embedding（词嵌入表示）的提出，一种对结构化信息的三元组的表示学习也进入研究视野。TransE模型正是一种基于深度学习的知识表示方法，也是Trans系列的开山之作，虽然至今已有四五年，但仍然是学习知识表示的重要切入点。本文将分析TransE。

一、简要信息

序号	属性	值
1	模型名称	TransE
2	所属领域	自然语言处理
3	研究内容	知识表示
4	核心内容	knowledge embedding
5	GitHub源码	https://github.com/thunlp/KB2E
6	论文PDF	http://www.thespermwhale.com/jaseweston/papers/CR_paper_nips13.pdf)

二、摘要与引言

我们思考了关于多元关系数据的实体和关系嵌入到低维度向量空间的问题。我们的目标是提出一个容易训练的简易模型，包括降低参数数量，且可以适用大规模数据集。由此我们提出TransE方法，可以将对关系的建模在低维度的实体表征空间上视为一种翻译操作。尽管这样很简单，这种假设证明是有效的，在两个知识库上的链接预测广泛的实验表明TransE模型超越了最佳模型。另外，它还可以成果的在大规模数据集上进行训练，包括1M个实体，25k个关系，超过17m个训练样本。
Multi-relational data（多元关系数据）是指有向图中包括头实体 $h$ 、尾实体 $t$ 以及两者之间的关系类 $l$ ，表示为三元组 $(h, l, t)$ 。以这种三元组结构的任务有社交网络（social network）、推荐系统（recommender systems）、知识库（knowledge bases）。我们的任务则是聚焦于对知识库（WordNet、FreeBase）中多元关系数据进行建模，同时提供一种高效的工具用于知识补全，不需要额外的知识。
（1）构建多元关系数据：通常关系数据包括单一关系数据（single-relational data）和多元关系数据（multi-relational data）。单一关系通常是结构化的，可以直接进行简单的推理；多元关系则依赖于多种类型的实体和关系，因此需要一种通用的方法能够同时考虑异构关系。
（2）关系可以作为嵌入空间之间的翻译：我们提出一种基于能量机制的模型来训练低维度实体嵌入。在TransE中，关系类被表征为翻译嵌入式表征。如果实体对存在，则头实体与之对应的关系向量之和和尾实体尽可能相同。

三、相关工作与主要贡献

知识表示的相关工作包括：
（1）距离模型的结构表示（SE）。
结构表示中，每个实体用 $k$ 维向量表示，头实体和尾实体分别为 $h, t$ ，关系 $l$ 定义两个 $k * k$ 维的方阵 $L_1,L_2$ ，因此则有目标函数 $f_l(h,t)=|hL_1-tL_2|$ ，目标则是当两个实体属于同一个三元组时，则两个向量 $hL_1,tL_2$ 相近。
（2）神经张量网络（NTN）：
神经张量网络则是在不同维度下将头尾实体向量联系起来，其定义一个得分函数：
$s(h,l,t)=h^TLt+l_1^Th+l_2^Tt$

其中 $L$ 为 $k * k$ 维方阵， $l_1,l_2$ 为 $k$ 维向量。这种得分函数包括三个部分之和，第一个部分 $h^TLt$ 是一个双线性模型（LFM），其可以很好的描述两个实体之间的语义关系，且减少计算量。通常 $L$ 被设计为一种对角矩阵（可以设计为单位矩阵，因为单位矩阵也是对角矩阵）；后两个部分则是对两个实体的向量乘积，其中 $l_1=-l_2$ （可以理解为两个实体的差值）

四、算法模型详解（TransE）

给定一个训练集 $S$ ，三元组表示为 $(h, l, t)$ ，其中 $h,t\in E$ ， $l\in L$ ，实体和关系的嵌入维度设为 $k$ ，我们希望 $h + l$ 与 $t$ 能够尽可能的“相似”，因此定义一个能量函数：

$d(h+l,t)=[(h+l)-t]^2=||h||_2^2 + ||l||_2^2 + ||t||_2^2 - 2(h^Tt + l^T(t-h))$

可知这是一个单纯的欧氏距离，即两个目标向量对应坐标距离。
为了训练实体对嵌入和关系嵌入，需要引入负样本。因此我们的目标是尽可能对正样本中最小化 $d (h + l, t)$ ，负样本中则尽可能最大化 $d (h^{'} + l, t^{'})$ ，其中 $h^{'}, t^{'}$ 表示不属于某个三元组的实体。，因此可以得出基于间距排序标准目标优化函数：

$L=\sum_{(h,l,t)\in S}\sum_{(h',l,t')\in S'_{(h,l,t)}}[\gamma + d(h+l,t)-d(h'+l,t')]_+$

其中 $x]_+$ 表示 $x$ 中正例的部分， $\gamma >0$ 表示距离因子。 $S'_{(h,l,t)}=\{(h',l,t)|h'\in E\}\cup\{(h,l,t')|t'\in E\}$ 。

具体的实现算法如图所示：

（1）首先使用正态分布初始化参数，初始化关系表征向量和实体向量，并分别进行归一化；
（2）循环每一个epoch，从所有样本中划分batch形成 $S_{batch}$ ，初始化 $T_{batch}$ 用于保存正样本和负样本；
（3）循环 $S_{batch}$ 中每一个样本，并随机进行负采样生成对应的负样本，并累加到 $T_{batch}$ 中；
（4）使用随机梯度下降训练目标函数，并调整三个向量；

五、实验及分析

实验在两个数据集上分别完成，分别为WordNet和FreeBase。数据集情况如图所示：

评价指标：测试集中的头实体被移除，轮流换为字典中的任意一个实体，因此首先计算错误三元组的得分并升序保存得分；其次保存正确的实体得分。整个过程重复，同时去掉尾实体而不是头实体。我们报告预测排名和hits@10的平均值，即排名前10位的正确实体的占比，随后移除所有的错误元组，不管是出现在训练集和验证集或者测试集中的，这保证了所有的错误元组不属于数据集。
（1）链接预测（link precision）
论文中并没有详细说明链接预测的具体操作，实质上链接预测可以分为实体预测和关系预测。
（1）实体预测：给定已知的头实体（或尾实体）以及关系类，预测对应的尾实体（或头实体）；
（2）关系预测：给定已知的头实体和尾实体，预测对应的关系。
作者首先完成的是实体预测。如下图表示不同数据集上各个模型的预测效果：