文章目录
1. 前驱知识
transE
TransE [4] represents a relation as a vector r indicating the semantic translation from the head entity h to the tail entity t, aiming to satisfy the equation t - h≈ r(向量) when triplet (h, r, t) holds.
这个模型的不足之处在于
consider a one-to-many relation r with multiple tail entities ti satisfying h + r ≈ ti for ∀i ∈ {1, …,m}, (h, r, ti) ∈ KG, and it outputs invalid representations (t1 =…= tm) for distinguishing entities.
在一对多的关系中,一个实体可能会通过一个关系对应N个实体,会造成歧义
2. 高斯分布
期望用于表示 实体和关系的位置
协方差矩阵用于表示 实体和关系间的(不)确定性
3. 结论性概念
- 确定性:一个关系中所包含的信息量的多少。一个关系所包含的信息熵越高,它的确定性就越大。例如知道希拉里的配偶是克林顿就比知道她的国籍是美国,关系的确定性来得高
- 一个实体几乎没有包含三元组,具有更高的不确定性
- 一个关系连接多个三元组,那么它也有着更高的不确定性
- 为人所熟知的实体有着更多的关系以及事实
- 不同的关系所包含的实体数量的不同
- 高频出现的关系连接着更多的实体对
- 不同实体和关系的不确定性的变化是非常大的
4. KG2E
This name has two meanings.
The first indicates mapping Knowledge Graph to Embedding
and the second indicates the representation of a KG with Gaussian Embedding.
一对实体关系对应一个多维的高斯分布
双得分函数
- 两种概率分布(实体对的分布、关系的分布)
- 基于期望似然的评分函数来检验非对称测度和对称测度的不同性能。
5. Qualitative Analysis
对知识图谱的不确定性做一个量化分析
不确定性越大,协方差越大
对了测量关系的不确定性,we measure the (log) determinant and trace of covariance for 13 relations
- 协方差可以很好地对不确定性进行建模
- 关系越复杂(1对多,多对1), 不确定越高
- 头尾实体越不平衡,不确定性越大
6. Link Prediction
(实体1,关系,实体2)
均值向量µ和协方差矩阵Σ表示高斯分布对应的嵌入表示,E和R分别为KGs中的实体集和关系集。
能量函数 Eθ(x),x为输入样本,θ为参数
通过学习,优化参数,使得正向样本的得分大于负面样本
实体概率分布 Pe ∼ N(µh − µt,Σh +Σt)
关系概率分布 Pr ∼ N(µr,Σr)
最关键一步是,测量以上两者的相似性
损失函数
目标:最小化margin-based ranking loss
均匀分布初始化
[x]+,代表取x和0的最大值
γ,正负三元组的界限
E(h, r, t),能量方程,有两种形式
不对称
对称
Γ,正向三元组样本的集合
Γ’,负向三元组的集合。通过随机交换头尾实体,来生成负向三元组
unif等概率替换头实体或尾实体
bern根据bernoulli(伯努利)分布选择替换头实体还是尾实体
- 所有实体关系的高斯嵌入首先通过均匀分布初始化
- 算法的每次迭代中,先从已观测到的三元组中抽取一个batch,并使用
unif
或bern
创建与之相关的负样本 - 利用随机梯度下降SGD,使margin-based ranking loss最小
结论
- 高斯分布的协方差可以很好地对关系的不确定性进行建模
- 有复杂语义的关系具有更大的不确定性
- 头尾实体越不平衡,不确定性越大
- 不对称能量方程更适合于知识图谱的高斯分布表示
- bern抽样策略表现良好
Metric
hit@10
我们从第一个开始遍历,看从第一个到第十个是否能够遇到真实的实体
每个testing triple正确答案是否排在序列的前十,如果在的话就计数+1
最终 排在前十的个数/总个数 就是Hit@10
这里的值就是百分比,百分比越高,代表模型的效果越好
模型效果与Hits@10
成正比
mean rank
计算在测试集里,平均到第多少个才能匹配到正确的结果
因此,我们希望mean rank得到的值越小越好
当值越小时,可以看出我们基于此模型得出的排名是准确的
WN18中,mean rank unstructured transE transR transH KG2E表现都不错, 但是大多数模型在hits@10表现不够好
在hits@10中,KG2E_KL比所有线性模型都做的好,但在mean rank中表现一般。究其原因:
- WN18数据库中,关系数量太少,单一的方法可以判断出正确的三元组,但无法将其排到很高的位次
- mean rank极易被具有很低位次且难以控制的三元组减少
FB15K中,KG2E_KL方法完成了通杀,两种衡量标准中均表现不错
因为FB15K的差异密度远大于WN18,所以我们可以假定,不确定差异更大,基于密度的嵌入方法更擅长于此类语料库
7. Triplet Classification
三元组的二分类问题,用来判断一个三元组正确与否
evaluation protocol
三元组分类方法
对于每一个三元组,通过能量方程计算其不相似得分,如若低于特定关系阈值,则被标记为正样本。
implement
learning rate α
the margin γ
dimension k
the batch size B
result
参考资料
Learning to Represent Knowledge Graphs with Gaussian Embedding
Shizhu He, Kang Liu, Guoliang Ji and Jun Zhao National Laboratory of Pattern Recognition Institute of Automation, Chinese Academy of Sciences, Beijing, 100190, China{shizhu.he, kliu, guoliang.ji, jzhao}@nlpr.ia.ac.cn