EMBEDDING ENTITIES AND RELATIONS FOR LEARNING AND INFERENCE IN KNOWLEDGE BASES
Bishan Yang, Wen-tau Yih, Xiaodong He, Jianfeng Gao, Li Deng The
International Conference on Learning Representations(ICLR)
- Abstract
利用学习关系嵌入来挖掘逻辑规则。发现双线性目标学习善于捕捉关系语义,矩阵乘法可以表示关系的组成。
先将模型分类成线性和双线性、两者组合的模型和模型间实体关系的运算。其次讨论双线性模型,将双线性模型中的矩阵限制为对角矩阵则和TransE一样的参数。其次再对比其和TransE的好坏。
- Background
- TransE、NTN、RESCAL的模型框架只有轻微的不同在于关系与实体之间的表示,不仔细比较,不清楚不同的设计又什么不同的影响。
- 链接预测实验只能间接表面了低维嵌入的意义,难以解释嵌入过程中捕捉了哪些关系属性,以及捕捉程度。
因此本文:
- 提出通用框架整合现有模型;
- 更好的链接预测实验评价;
- 挖掘逻辑规则。
- Algorithm
实体表示:
x为one-hot高纬矢量,W为参数方程,f()为线性或非线性函数。
关系表示:
关系的表示通常反映在打分函数中,打分函数通常被定义为线性、双线性或二者组合的转换函数:
几个模型的关系表示及打分函数:
本文只考虑最基本的双线性打分函数:
本文提出了将关系矩阵 𝑀𝑟 限制为对角矩阵(DistMult),这样可以将双线性模型的参数量减少到与 TransE 相同。
损失函数:
- Experiment
link prediction:
评价标准:https://www.cnblogs.com/shenxiaolin/p/9309749.html
- Mean Reciprocal Rank (MRR)
an average of the reciprocal rank of an answered entity over all test triplets .
- Mean Average Precision (MAP)
as used in (Chang et al., 2014)) as the evaluation metrics.
- NTN最复杂的模型,在实验中表现的最差,表明过拟合;
- 本文实现的TransE的实验结果比其原文的实验结果好,差异在于对梯度下降算法的选择,表明AdaGrad会更好;
- DistMult是双线性对角矩阵,是对双线性法的简化,但实验结果更好。
DIstADD -> TransE -> 加法操作
DistMULT -> Bilinear-diag -> 乘法操作
此外,还试验了不同初始化方法的影响。
使用非线性的投影函数 tanh,并使用预训练词向量进行实体表示的初始化。在预测实体时,利用实体类型信息进行结果过滤。
嵌入模型极大受益于外部文本的预训练
Rule Extration:
规则抽取是本文的重要工作。逻辑规则有很重要的意义:
- 可用于推断新事实进行 KB 补全;
- 优化数据存储,只存储逻辑规则比存储事实节省空间;
- 支持复杂推理;
- 为推断结果提供解释。
双线性模型更复杂,所以他在长路径的关系提取上表现得更好。
- Conclusion
本文提出了 neural-embedding 的通用框架,并把 NTN、TransE 等模型套在框架里进行对比;提出了将关系矩阵限制为对角矩阵的 DistMult;并用 embedding-based 方法挖掘逻辑规则。