TransE
TransE: Translating Embedding,将实体与关系嵌入到低维向量空间中,并对向量空间中的三元组(h,r,l)进行操作,把关系 r 视为“翻译”来进行建模的知识表示方法。
Motivation: 处理在低维向量空间中嵌入的实体和多关系数据的关系的问题【知识图谱(KG)是其中的重要的研究对象】
Advantage: 相比之前存在的诸多三元组的训练表示方法,更易于训练,且包含较少的参数,可以扩展到非常大的数据库,并且,在现实世界中存在的知识图谱上的链接预测方面可以显著优于发表时的最先进的方法。
1.论文摘要
我们考虑在低维向量空间中嵌入多关系数据的实体和关系的问题。我们的目标是提出一种易于训练、包含较少数量的参数并且可以扩展到非常大的数据库的规范模型。因此,我们提出了 TransE,一种通过将关系解释为对实体的低维嵌入进行操作的翻译来对关系进行建模的方法。尽管很简单,但这种假设被证明是有效的,因为大量的实验表明 TransE 在两个知识库的链接预测方面显着优于最先进的方法。此外,它可以在包含 1M 实体、25k 关系和超过 17M 训练样本的大规模数据集上成功训练。
2.TransE 向量空间假设
TransE 对三元组(h,r,t)中的实体和关系映射到向量空间作了一些假设:
每一个三元组(h,r,t)都能表示为(h,r,t),其中,h是指头实体的向量表示,r是指关系的向量表示,t是指尾实体的向量表示
通过不断调整来构建三元组(其中三元组的实体和关系都来自源知识图谱),来发现向量空间中,头实体向量 h加上关系 r等于尾实体向量 t的三元组,这个过程称为翻译,如果在向量空间这种关系成立,就说明三元组(h,r,t)所代表的知识表示可以看作是正确的,以此来发现实体间新的关系,如下图所示:
TransE 的功用在于:
① 通过词向量表示知识图谱中已存在的三元组(所以TransE可以看作知识表示方法)
② 扩大知识图谱中的关系网,扩充构建多元关系数据。其中,关系数据包括单一关系数据(single-relational data)和多元关系数据(multi-relational data)(单一关系通常是结构化的,可以直接进行简单的推理,多元关系则依赖于多种类型的实体和关系,因此需要一种通用的方法能够同时考虑异构关系)(所以TransE可以看作“活的”或“更高级的”的知识表示方法,因为可以做知识图谱上的链接预测,或作为媒介完善知识图谱)。
实验的训练集使用的是知识图谱中的实体集和关系集进行构造:
Given a training set S of triplets (h, l, t)
composed of two entities h, t ∈ E (the set of entities) and a relationship l ∈ L (the set of relationships)
即训练集中头实体向量和尾实体向量都来源于原知识图谱中的实体集,l 来自于知识图谱现有的关系集。
知识图谱(KG)中现存的关系构成关系集,实体构成实体集,我们抽取两个集合来构造三元组,让知识图谱(KG)中的成对的实体与每个关系做向量的运算,如果近似达到要求,就连接两个实体来补充完善知识图谱,从而挖掘或者说是发现实体间的多元关系,扩大知识图谱实体间的关系网,发挥链接预测的作用。
3.TransE原理分析
① 对知识图谱中的现有关系进行表示
在知识图谱的实体向量集中,随机取得头实体向量 或 尾实体向量并对初始三元组的对应向量进行替换(一次替换一个,另一种设计方案,替换关系 r ,也可以,原理一样),得到若干三元组d ( h’ + r,t’ ),构成训练集进行训练。
论文中提