知识图谱的入门学习笔记
为了方便今后参阅,故写下该学习笔记。学习资料参考视频地址:https://www.bilibili.com/video/BV1dy4y1m7C4?t=5437
开放资源
1.知识图谱与知识表示学习
1.1 知识图谱
(头实体,关系,尾实体)三元组为基本结构来表示知识。
其中,(h,r,t)是有顺序的。关系是有序的。
知识图谱的(h,r,t)三元组符号表示面临挑战:
- 计算效率低下。知识图谱的(h,r,t)三元组表示需要图算法进行计算。这张图算法往往计算复杂度比较高,在目前大规模知识图谱上面难以快速运行,且难以扩展至其他情况
- 数据稀疏性强。大规模知识图谱中的实体与关系存在长尾分布,有很多实体只存在极少数的关系与之相连。对这些系数的实体和关系,往往很难有效理解与推理。
1.2 知识表示学习
只是表示学习基于分布式表示的思想,把实体或者关系的语义信息映射到底为的向量空间中,使得语义相似的两个对象之间的距离也接近。用粗体的h,r,t表示头尾实体和关系对应的表示向量。
知识的分布式表示的特点:
- 分布式表示学习到的是低维向量,使得实体和关系之间的语义练习能够在低维空间中得到高速计算,
- 传统one-hot得到的是所有向量的相互独立假设,丢失了大量对象之间的关系与关联信息。
- 分布式表示能够将多元异质信息映射到同一语义空间,建立多源跨模态的信息交互,且分布式表示也能更便捷的通入深度学习的框架。
2 知识表示学习的典型模型及训练
2.1 TransE模型
映射到同一个低维实值向量空间, 把实体与实体之间的关系表示为实体向量之间的平移操作
E(h,r,t)若趋近于0,此时假设我们改变t变成t‘,那么||h+r-t’||就比较大,评分函数的值比较大。E(h,r,t)-E(h,r,t;)就是一个小于0的值.与0比较取0。
当t‘在t附近,此时h+r约等于t‘。难以分辨,很小的差距是由于负样本的排斥性带来的还是具有关系的近似性得到的?所以就认为产生了损失。
距离远的程度由r 来调整。
2.2 TransR模型
实体空间关系空间不是一个空间。【各个关系空间】
2.3 RESCAL模型
由于实体关系张量X趋于稀疏,rescal模型采用二元分解法
实体还是用向量来表示,关系用一个方阵来表示
怎么理解?–看后面的优化策略
输入h跟t 经过r然后一个输出 可以视为2层的神经网络
只保留对角线上的元素的话就是
2.4 DisMult模型
2.5 优化策略‘
不是1就是0,所以是用的逻辑回归
Max Π(sigma(y,f))
Max Π log【sigma(y,f)】
化简 就是上式
3 DGL-KE大规模知识表示学习框架
3.1 DGL-KE简介及特性
DGL-KE是一个高性能,易于使用且可扩展的软件包。(效率很不错)
[1]:https://www.bilibili.com/video/BV1dy4y1m7C4?t=5437