知识图谱——TransE模型原理

最新推荐文章于 2024-06-30 18:45:00 发布

隔壁的NLP小哥

最新推荐文章于 2024-06-30 18:45:00 发布

阅读量1.2w

点赞数 27

分类专栏：知识图谱

本文链接：https://blog.csdn.net/hei653779919/article/details/104278583

版权

知识图谱专栏收录该内容

13 篇文章 42 订阅

订阅专栏

知识图谱——TransE模型原理

1 TransE模型介绍

1.1 TransE模型引入

在我们之前的文章中，提到了知识图谱补全任务的前提任务是知识表示学习，在知识表示学习中，最为经典的模型就是TransE模型，TransE模型的核心作用就是将知识图谱中的三元组翻译成embedding向量。

1.2 TransE模型思想

为了后面便于表示，我们先设定一些符号

h 表示知识图谱中的头实体的向量。
t 表示知识图谱中的尾实体的向量。
r 表示知识图谱中的关系的向量。

在TransE模型中，有这样一个假设：
$t = h + r$
也就是说，正常情况下的尾实体向量=头实体向量+关系向量。用图的方式描述如下：
在这里插入图片描述
如果一个三元组不满足上述的的关系，我们就可以认为这是一个错误的三元组。

1.3 TransE模型的目标函数

首先，我们先来介绍两个数学概念：

L1范数

也称为曼哈顿距离，对于一个向量X而言，其L1范数的计算公式为：
$X||_{L1}=∑_{i=1}^n|x_i|$
其中， $x_i$ 表示向量X的第i个属性值，这里我们取的是绝对值。并且，使用L1范数可以衡量两个向量之间的差异性，也就是两个向量的距离。
$Distance_{L1}(X_1,X_2)=∑_{i=1}^n|X_{1i}-X_{2i}|$

L2范数

也称为欧式距离，对于一个向量X而言，其L2范数的计算公式为：
$||X||_{L2}=\sqrt{∑_{i=1}^nX_i^2}$
同样，L2范数也可以用来衡量两个向量之间的差距:
$Distance_{L2}(X_1,X_2)=∑_{i=1}^n(X_{1i}-X_{2i})^2$

根据我们上面介绍的Trans中的假设，我们可以知道，对于一个三元组而言，头实体向量和关系向量之和与尾实体向量越接近，那么说明该三元组越接近一个正确的三元组，差距越大，那么说明这个三元组越不正常。那么我们可以选择L1或者L2范数来衡量三个向量的差距。而我们的目标就是使得争取的三元组的距离越小越好，错误的三元组距离越大越好，也就是其相反数越小越好。数学化的表示就是：
$min∑_{(h,r,t)∈G}∑_{(h',r',t')∈G'}[γ+distance(h+r,t)-distance(h'+r',t')]_+$

其中：

$(h, r, t)$ ：表示正确的三元组
$(h^{'}, r^{'}, t^{'})$ ：表示错误的三三元组
$γ$ ：表示正样本和负样本之间的间距，一个常数
$x]_+$ ：表示max(0,x)

我们来简单的解释以下目标函数，我们的目标是让正例的距离最小，也就是 $m i n (d i s t a n c e (h + r, t))$ ，让负例的相反数最小也就是 $(m i n (- d i s t a n c e (h^{'} + r^{'}, t^{'})))$ ，对于每一个正样本和负样本求和，再增加一个常数的间距，就是整体距离的最小值。也就是我们的目标函数。

1.4 目标函数的数学推导

这里，我们采用欧氏距离作为distance函数，则目标函数可以改写为：
$min∑_{(h,r,t)∈G}∑_{(h',r',t')∈G'}[γ+(h+r-t)^2-(h'+r'-t')^2]_+$
则对于损失函数loss就有：
$Loss = ∑_{(h,r,t)∈G}∑_{(h',r',t')∈G'}[γ+(h+r-t)^2-(h'+r-t')^2]_+$
在损失函数中，我们知道所有的参数包括{ $h, r, t, h^{'}, r, t^{'}$ }。下面，我们来逐个进行梯度推导：

首先是对h的梯度，对于某一个 $h_i$ 而言
$\frac{∂Loss}{∂h_i}= ∑_{(h_,r,t)∈G}∑_{(h',r,t')∈G'}\frac{∂[γ+(h+r-t)^2-(h'+r-t')^2]_+}{∂h_i}$
在整个求和的过程中，只针对包含 $h_i$ 的项求导：
$\frac{∂[γ+(h_i+r-t)^2-(h'+r-t')^2]_+}{∂h_i}$
有：
$\frac{∂[γ+(h_i+r-t)^2-(h'+r-t')^2]_+}{∂h_i}= \begin{cases} 2(h_i+r-t)&&γ+(h+r-t)^2-(h'+r-t')^2>0\\ 0 &&γ+(h+r-t)^2-(h'+r-t')^2<=0 \end{cases}$
则原式变为：
$\frac{∂Loss}{∂h_i}= ∑_{(h_i,r,t)∈G}∑_{(h',r,t')∈G'} \begin{cases} 2(h_i+r-t)&&γ+(h_i+r-t)^2-(h'+r-t')^2>0\\ 0 &&γ+(h_i+r-t)^2-(h'+r-t')^2<=0 \end{cases}$
同理对于 $t_i,h_i',t_i'$ 有：
$\frac{∂Loss}{∂t_i}= ∑_{(h,r,t_i)∈G}∑_{(h',r,t')∈G'} \begin{cases} -2(h+r-t_i)&&γ+(h+r-t_i)^2-(h'+r-t')^2>0\\ 0 &&γ+(h+r-t_i)^2-(h'+r-t')^2<=0 \end{cases}$
$\frac{∂Loss}{∂h_i'}= ∑_{(h,r,t)∈G}∑_{(h_i',r,t')∈G'} \begin{cases} -2(h'+r-t')&&γ+(h+r-t)^2-(h_i'+r-t')^2>0\\ 0 &&γ+(h+r-t)^2-(h_i'+r-t')^2<=0 \end{cases}$
$\frac{∂Loss}{∂t_i'}= ∑_{(h,r,t)∈G}∑_{(h',r,t_i')∈G'} \begin{cases} 2(h'+r-t')&&γ+(h+r-t)^2-(h'+r-t_i')^2>0\\ 0 &&γ+(h+r-t)^2-(h'+r-t_i')^2<=0 \end{cases}$
最后对于 $r_i$ ，γ有：
$\frac{∂Loss}{∂r_i}=∑_{(h,r_i,t)∈G}∑_{(h',r_i,t')∈G'} \begin{cases} 2(h+r_i-t)-2(h'+r_i-t')&&γ+(h+r_i-t)^2-(h'+r_i-t')^2>0\\ 0 &&γ+(h+r_i-t)^2-(h'+r_i-t')^2<=0 \end{cases}$
$\frac{∂Loss}{∂γ}= ∑_{(h,r,t)∈G}∑_{(h',r',t')∈G'} \begin{cases} 1&&γ+(h+r-t)^2-(h'+r-t')^2>0\\ 0 &&γ+(h+r-t)^2-(h'+r-t')^2<=0 \end{cases}$