TransH 算法详解

最新推荐文章于 2025-03-07 01:00:00 发布

MonkeyDSummer

最新推荐文章于 2025-03-07 01:00:00 发布

阅读量1.7w

点赞数 22

分类专栏：机器学习文章标签：机器学习知识图谱知识表示 transH embedding

本文链接：https://blog.csdn.net/MonkeyDSummer/article/details/85273843

版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

TransH 算法详解

文章目录

TransH 算法详解

算法背景

transE算法存在的问题

在我的上一篇博客中，提到了TransE算法。其在知识表示的引用中因为其简单，高效的特性而广受欢迎。但是其也存在一定的缺陷。例如在处理自反关系，以及一对多、多对一、多对多关系时存在一些不足。

通过上一篇博客容易知道，TransE算法的核心思想是对于一个三元组 $\in \Delta$ ( $\Delta$ 表示正确的三元组集合 $\Delta '$ 表示不正确的三元组集合，所以 $\in \Delta$ 表示这个三元组 $(h, r, t)$ 是正确的)，那么应该有 $h + r = d$ 。于是可以从TransE模型中得到两个结论:

如果 $\in \Delta$ 并且 $\in \Delta$ ,即关系r 是一个自反的映射，那么可以知道 $r = 0$ 并且 $h = t$
如果 $\forall i \in \{0,1,2,...,m\}, (h_i,r,t) \in \Delta$ , 也就是说 r 是一个 m - 1的映射，那么 $h_0 = .... = h_m$ 。相似的,如果 $\forall i \in \{0,1,2,...,m\}, (h,r,t_i) \in \Delta$ , 也就是说 r 是一个 m - 1的映射，那么 $t_0 = .... = t_m$ 。

从上述结果可以发现，transE算法在处理自反关系，以及多对一、一对多、多对多关系中，会使得一些不同的实体具有相同或者相似的向量。其根本原因在于，出现在多个关系中的同一个实体的表示是相同的。

解决方法

为了解决TransE在面对自反关系，以及多对一、一对多、多对多关系的不足。2014年Wang Z, Zhang J, Feng J, et al.提出了transH模型，其核心思想是对每一个关系定义一个超平面 $W_r$ ，和一个关系向量 $d_r$ 。 $h_{\perp },t_{\perp }$ 是 $h, t$ 在 $W_r$ 上的投影，这里要求正确的三元组需要满足 $h_r + d_r = t_r$ 。这样能够使得同一个实体在不同关系中的意义不同，同时不同实体，在同一关系中的意义，也可以相同。

算法描述

几何含义

在这里插入图片描述

如上图所示，对于正确的三元组 $\in \Delta$ 来说，其所需要满足的关系如图所示。那么对于一个实体 $h "$ 如果满足 $\in \Delta$ ,在transE中是需要 $h " = h$ ，而在transH算法中则将约束放宽到 $h, h "$ 在 $W_r$ 上的投影相同就行了，也就能将 $h ", h$ 区分开来,从而具有不同的表示。

目标函数

于是我们定义在transE中的 $d (h + r, t)$ 为:
$f_r(h,t) = || h_{\perp} + d_r - t_{\perp}||_2 ^2$

对于平面 $W_r$ 我们可以用法向量来表示，我们不妨假设 $w_r$ 为平面 $W_r$ 的法向量，并加约束条件 $w_r||_2 ^2 = 1$ , 所以我们知道 $h$ 在 $w_r$ 上的投影为
$h_{w_r} = w^T h w$ ,这是因为 $w^Th=|w||h|cos\theta$ 表示 $h$ 在 $w$ 方向上投影的长度(带正负号)，乘以 $w$ 即 $h$ 在 $w$ 上的投影，所以可以知道:
$h_{\perp} = h - h_{w_r} = h - w^T h w$

如下图所示

在这里插入图片描述

相似的可以知道

$t_{\perp} = t - t_{w_r} = t - w_r ^T t w_r$

所以

$f_r(h,t) = || h - w_r^T h w_r + d_r - t + w_r^T t w_r||_2 ^2$

所以得到目标函数

$\min {\sum _ {(h,r,t) \in S} \sum _{(h', r, t') \in S'} [\gamma + f_r(h , t) - f_r(h',t')]_+}$

梯度

定义:
$[\gamma + f_r(h , t) - f_r(h',t')]_+ = [\gamma + (h - w_r^T h w_r + d_r - t + w_r^T t w_r) ^ 2 - (h' - w_r^T h' w_r + d_r - t' + w_r^T t' w_r)^2]_+$

于是有:
$\frac{\partial l}{\partial h} = \begin{cases} 2(h - w_r^T h w_r + d_r - t + w_r^T t w_r)\cdot(\hat i - \vec{(w_i ^2)} ), & \text{if } l > 0;\\ 0, &\text{if } l <= 0 \end{cases}$

$\frac{\partial l}{\partial t} = \begin{cases} 2(h - w_r^T h w_r + d_r - t + w_r^T t w_r)\cdot(\hat i - \vec{(w_i ^2)} ), & \text{if } l > 0;\\ 0, &\text{if } l <= 0 \end{cases}$

$\frac{\partial l}{\partial h'} = \begin{cases} 2(h' - w_r^T h' w_r + d_r - t' + w_r^T t' w_r)\cdot(\hat i - \vec{(w_i ^2)} ), & \text{if } l > 0;\\ 0, &\text{if } l <= 0 \end{cases}$

$\frac{\partial l}{\partial t'} = \begin{cases} 2(h' - w_r^T h' w_r + d_r - t' + w_r^T t' w_r)\cdot(\hat i - \vec{(w_i ^2)} ), & \text{if } l > 0;\\ 0, &\text{if } l <= 0 \end{cases}$

$\frac{\partial l}{\partial w_r} = \begin{cases} 2(h - w_r^T h w_r + d_r - t + w_r^T t w_r)\cdot(w^Tt -w^Th)(t - h) - \\ 2(h' - w_r^T h' w_r + d_r - t' + w_r^T t' w_r)\cdot(w^Tt' -w^Th')(t' - h'), & \text{if } l > 0;\\ 0, &\text{if } l <= 0 \end{cases}$