摘要
- 了解知识图谱的构建过程
- 掌握相关技术的发展情况
- 查找相关模型demo
KG构建过程
- 数据获取
通过爬虫等技术从互联网上获取;直接使用现有的数据集。
- 输入:网页或其他数据来演
- 输出:符合特定格式的原始数据
- 知识获取
将原始数据处理为知识,包括实体、实体的属性值、实体的关系,其中实体的关系为 ( 实 体 S , 关 系 R , 实 体 T ) (实体S, 关系R, 实体T) (实体S,关系R,实体T)三元组,以上统称为结构化的知识。
- 输入:原始数据
- 输出:结构化的数据——实体、实体属性、实体关系
- 知识融合
实体消歧和实体对齐,将相关领域的知识进行融合,即识别多个实体实际上为同一实体,或多个关系实际上为同一关系。
- 输入:结构化的数据
- 输出:融合后的数据
- 知识服务
展示图谱,并提供基本的交互操作
- 应用
基于知识图谱提供其他应用
本次实训中,只需完成前四步,其中,算法方面只需集中关心第2、3步,即知识的抽取和融合。
算法
该部分内容参考自:https://zhuanlan.zhihu.com/p/135437344
将KG定义为
G
=
{
E
,
R
,
F
}
{G = \{ E, R, F \}}
G={E,R,F},其中
E
,
R
,
F
{E, R, F}
E,R,F分别表示实体、关系、事实(facts)的集合。
事实定义为三元组
(
h
,
r
,
t
)
∈
F
{(h, r, t) \in F}
(h,r,t)∈F。
h
:
h
e
a
d
h:head
h:head
r
:
r
e
l
a
t
i
o
n
r:relation
r:relation
t
:
t
a
i
l
t:tail
t:tail
知识表征学习 KRL
表征学习的主要任务为:学习实体和关系的低维分布式表征。
表征空间
-
Point-Wise空间
- NTN(2013):通过一个双线性张量神经层建模多维的实体,head和tail之间的关系交互通过一个张量[来捕获。
- TransE(2013):使用 d {d} d维向量空间表征实体和关系,转换原则为 h + r ≈ t {h + r \approx t} h+r≈t。
- TransH(2014):线性变换模型。
- TransR(2015):用不同的表征空间分别表示实体和关系,使用映射矩阵将实体特征映射到关系空间。
-
复数向量空间
- ComplEx(2016):引入附属向量空间,可捕获对称和非对称关系。Hermitian点积用来组合关系、head以及tail的共轭。
- RotatE(2019):借助欧拉公式的思想,将关系视为head实体到tail实体的旋转,即 t = h ∘ r {t = h \circ r} t=h∘r,其中 ∘ {\circ} ∘表示hadmard积。
- QuatE(2019):将传统的复数空间扩展到超复数空间。
-
高斯分布
- KG2E(2015):引入高斯分布处理确定和不确定的实体和关系。论文将实体和关系embeded到多维高斯分布。
- TransG(2016):使用高斯分布表征实体,将关系embedding看做高斯分布的混合。
-
流形和群
- ManifoldE(2016):将point-wise embedding的方法扩展到manifold-based方法中。
- TorusE(2018):通过压缩的Lie group n维圆环空间的embedding,解决TransE正则化的问题。
- DihEdral(2019):通过二平面对称群保存2维的多边特征。
打分函数
用于衡量facts的合理性
-
基于距离
通过计算两个实体之间的距离衡量facts的合理性, h + r ≈ t {h + r \approx t} h+r≈t。- Structural Embedding(2011):使用两个映射矩阵和 L 1 {L_{1}} L1距离学习结构化embedding f r ( h , t ) = ∥ M r , 1 h − M r , 2 t ∥ L 1 {f_{r}(h,t) = {\lVert{M_{r,1}h - M_{r,2}t}\rVert}_{L_{1}}} fr(h,t)=∥Mr,1h−Mr,2t∥L1
- TransE(2013):假设 h + r {h + r} h+r接近 t {t} t,打分函数可以定义为 L 1 {L_1} L1或者 L 2 {L_2} L2范数 f r ( h , t ) = ∥ h + r − t ∥ L 1 / L 2 {f_{r}(h,t) = {\lVert{h + r - t}\rVert}_{L_{1}/L_{2}}} fr(h,t)=∥h+r−t∥L1/L2
- TransH
- TransR
- TransD
- TransA
- TransF
- ITransF
- TransAt
- TransMS
-
基于语义相似度
通过语义匹配得分衡量facts的合理性, h T M r ≈ t {h^{T}M_{r} \approx t} hTMr≈t。- SME
- DistMult
- HolE
- HolEx
- ANALOGY
- CrossE
编码模型
- 线性/双线性模型
- 因子分解模型
- 神经网络模型
- CNN
- RNN
- Transformers
- GNNs
辅助信息
KRL步骤
- 选择表征空间
- 选择打分函数
- 选择编码模型
- 是否使用辅助信息