OpenKE实现转移距离模型trans系列代码
前言
前段时间学习了知识图谱表示的转移距离模型trans系列大礼包,编辑这篇博客的起因是一个学妹找我要trans系列的代码,所以就在周日的下午来回忆一下自己之前用虚拟机和openKE跑trans系列代码的过程。
简要介绍
转移距离模型(trans系列)
假设我们现在要完成的任务是根据知识图谱中已存在的实体去预测缺失事实(即链接预测),一个思路是将知识图谱实体与实体之间的关系解释为为空间内的几何变换,比如用向量去表示实体,再通过向量之间的计算就可以完成链接预测,而trans系列就可以实现上述思路。
思想: 拥有同一种关系的头实体和尾实体,在向量空间的表示可能具有平移不变性。例如:vec(king)-vec(queen)=vec(man)-vec(woman),“king”和“queen”在语义上的关系与“man”和“woman”之间的关系近似。
过程:
- 划分数据集为训练集、测试集、验证集
- 指定向量维度,初始化实体和关系向量表示
- 构造负样本,随机替换正样本的头实体或尾实体
- 正负样本经过打分函数,|h+r-t| 头实体+关系-尾实体如果趋近于0,则关系存在
- 优化向量表示,(正loss-负loss)/2 趋近于小,即正loss趋近于大,负loss趋近于小,即通过使正样本的距离不断接近,负样本的距离不断增大来优化实体和关系的向量表示。
TransE
如果事实(h,r,t)存在,则存在 f r ( h , t ) = − ∣ ∣ h + r − t ∣ ∣ 1 / 2 f_{r}(h,t)=-||h+r-t||_{1/2} fr(h,t)=−∣∣h+r−t∣∣1/2
问题: 难以处理一 对多(1-N)、多对一(N-1)以及多对多(N-N)关系的问题。
举例:h:张艺谋 r:导演 t1:《英雄》 t2:《十面埋伏》t3:《金陵十三钗》t4:《满城尽带黄金甲》如果h+r-t趋近于0,—> h+r不变------> t1,t2,t3,t4无限趋近
TransH
h,r,t在一个向量空间,不在一个向量平面。关系r有一个超平面,关系超平面由平面的法向量 wr和平面上的平移向量dr来决定,相当于关系由一个超平面来表示,不同的h和t对应不同的dr, h和t投影到r的超平面上,利用投影向量进行三元组得分的计算。具体公式如下:
h ⊥ = h