会议:IJCAI 2019
原文:https://www.ijcai.org/Proceedings/2019/0754.pdf
源码地址:https://github.com/nju-websoft/MultiKE
1. 动机与贡献
1.1. 动机
- 知识图谱的特征有许多,包括结构信息、实体属性、实体名称及描述等。目前的实体对齐方法仅仅只利用了其中部分特征,没有将这些特征全部利用起来。将所有特征有效利用起来能够提高模型的准确率和稳定性。
- 对齐任务往往需要种子实体对作为正样本,但是种子实体对的获取成本高导致其数量少。事实上,从多种特征中学习实体的嵌入能够自动捕获对齐特征并且减轻对种子实体对的依赖。
1.2. 贡献
\,\,\,\,\,\,\,\,\,\, 从以上两个动机出发,作者提出MultiKE方法,即多视图知识图谱实体对齐方法。该方法将实体的特征分成三个部分,每一个部分称为视图,分别建立表示学习模型,多个视图互补。将多个视图的实体嵌入充分联合起来以提高实体对齐模型的性能。主要贡献点如下:
- 基于知识图谱实体的名称、关系、属性特征分别建立了三个表示视图,对于每个视图分别建立模型以学习实体的嵌入。
- 对于实体对齐,分别在实体级和关系级和属性级设计了两种跨kg的识别推理方法,以保持和增强不同KG之间的实体对齐。
- 提出了三种不同的策略来组合多个视图的实体嵌入。最后,我们通过组合嵌入找到对齐实体。
- 在两个真实数据集上的实验表明,MultiKE在很大程度上优于现有的基于嵌入的实体对齐方法。所选择的视图、跨KG推理和组合策略都有助于提升模型性能。MultiKE在无监督实体对齐方面也取得了良好的效果,可与传统的实体对齐方法较量。
2. 多视图知识图谱嵌入
2.1. 符号及问题定义
\,\,\,\,\,\,\,\,\,\,
文章中的符号与问题定义(符号较多懒得手打了)如图1所示:
除此之外,小写粗体字符表示嵌入、大写粗体字符表示矩阵,上标 ( 1 ) ^{(1)} (1)表示名字视图, ( 2 ) ^{(2)} (2)表示关系视图, ( 3 ) ^{(3)} (3)表示属性视图。
2.2. 文本嵌入
\,\,\,\,\,\,\,\,\,\,
不失一般性,设
l
=
(
o
1
,
o
2
,
.
.
.
,
o
n
)
l=(o_1, o_2, ..., o_n)
l=(o1,o2,...,on)表示n个记号(token)的文本,
o
i
o_i
oi表示文本的第
i
i
i个记号。
L
P
(
.
)
LP(.)
LP(.)表示查询函数根据文本查询嵌入,嵌入维度(向量长度)为
d
d
d,由于文本的记号可能为词语或者字符,
L
P
(
.
)
LP(.)
LP(.)的计算方法需要分情况讨论,其公式如下:
其中
w
o
r
d
_
e
m
b
e
d
(
⋅
)
word\_embed(·)
word_embed(⋅)表示词汇嵌入查询函数,可以查询得到预训练好的词向量;
c
h
a
r
_
e
m
b
e
d
(
⋅
)
char\_embed(·)
char_embed(⋅)表示字符查询函数,字符向量需要使用
K
G
a
KG_a
KGa与
K
G
b
KG_b
KGb中的字符训练,训练方法为Skip-Gram模型。文本的嵌入
ϕ
(
l
)
\phi(l)
ϕ(l)可以表示为如下公式:
其中encode(·)返回输入的压缩表示; [ ; ] [;] [;]表示连接操作;n设定为5,文本多出的记号将会被截去,不足的记号用占位符补充。
2.2. 名字视图嵌入
\,\,\,\,\,\,\,\,\,\,
名字视图嵌入利用文本嵌入方法,从实体名字方面对实体进行嵌入,公式如下:
其中 h h h表示实体的rdf字符串, n a m e ( . ) name(.) name(.)表示从实体rdf字符串中获取名字并转换成公式(2)中输入形式的函数。知识图谱的名字嵌入用符号 Θ ( 1 ) \Theta^{(1)} Θ(1)表示,即名字视图中实体嵌入空间。
2.3. 关系视图嵌入
\,\,\,\,\,\,\,\,\,\,
关系视图嵌入从知识图谱的结构信息(实体关系三元组)出发,对知识图谱的实体和关系进行嵌入。给定关系三元组
(
h
,
r
,
t
)
(h,r,t)
(h,r,t),
h
h
h、
r
r
r、
t
t
t分别代表头实体、关系、尾实体,该三元组为知识图谱中真实三元组的可能性得分定义如下:
其中
∣
∣
.
∣
∣
||.||
∣∣.∣∣表示曼哈顿距离或者欧几里得距离。根据公司(4)定义三元组
(
h
,
r
,
t
)
(h,r,t)
(h,r,t)为知识图谱中三元组的概率函数:
其中
Θ
(
2
)
\Theta^{(2)}
Θ(2)表示关系视图的实体嵌入空间,
ζ
(
h
,
r
,
t
)
\zeta_{(h,r,t)}
ζ(h,r,t)为指示函数,当(h,r,t)为知识图谱中的三元组时等于1,否则为0。定义公式(6)中的损失函数对
Θ
(
2
)
\Theta^{(2)}
Θ(2)进行参数优化:
其中 χ + = χ a ∪ χ b \chi^+=\chi_a \cup \chi_b χ+=χa∪χb,即 K G a KG_a KGa与 K G b KG_b KGb的三元组的并集; χ − \chi^- χ−表示 K G a KG_a KGa与 K G b KG_b KGb中替换了头实体或者尾实体的三元组的并集,即负样本的并集。
2.4. 属性视图嵌入
\,\,\,\,\,\,\,\,\,\, 属性视图嵌入从知识图谱的属性信息(实体属性三元组)出发,对知识图谱的实体进行嵌入。利用卷积神经网络(CNN)从属性名称和属性值中提取特征,其步骤为:
- 使用2.1节中的文本嵌入方法,对属性名称和属性值进行嵌入(得到两个长度为d的向量)。
- 将属性名嵌入与属性值嵌入拼接在一起,得到形状为 ( 2 , d ) (2, d) (2,d)的矩阵 < a , v > <a,v> <a,v>。
- 使用卷积神经网络对 < a , v > <a,v> <a,v>进行非线性映射,得到的结果为实体的属性视图嵌入(向量)。
其中卷积神经网络可以用如下公式定义:
其中
σ
(
.
)
\sigma(.)
σ(.)表示激活函数;
v
e
c
(
.
)
vec(.)
vec(.)表示将输入转换成向量形式的函数;
Ω
\Omega
Ω表示形状为
(
2
,
c
)
,
c
<
d
(2, c), c<d
(2,c),c<d的卷积核;
W
W
W为全连接层参数。
\,\,\,\,\,\,\,\,\,\,
给定属性三元组
(
h
,
a
,
v
)
(h,a,v)
(h,a,v),我们定义以下分数函数来衡量其合理性:
在此基础上,头实体嵌入值应该接近它的属性和属性值的卷积结果。定义如下对数损失函数来优化该目标:
其中
Y
+
Y^+
Y+表示KGa与KGb中属性三元组的并集。这里没有使用负样本,因为我们发现它不会对实体对齐带来显著的改进。
3. 跨知识图谱对齐训练
\,\,\,\,\,\,\,\,\,\, 本章节的主要内容是在2章节的基础上,利用知识图谱之间的对齐样本,增强多视图的表示学习效果。
3.1. 实体同一性推理
\,\,\,\,\,\,\,\,\,\,
提出跨KG实体同一性推断,基于种子实体对齐来捕获两个KG之间的对齐信息。 如图2所示,三元组(Mona Lisa, museum, Louvre)为KGa的三元组,如果KGb中实体La Joconde等价于Mona Lisa,KGa中实体Louvre等价于KGb中实体Louvre Museum,那么三元组(La Joconde, museum, Louvre)和(Mona Lisa, museum, Louvre Museum)也为真实合理的关系三元组。不失一般性地,给定KGa中真实的关系三元组
(
h
,
r
,
t
)
(h,r,t)
(h,r,t),如果
(
h
,
h
^
)
(h,\hat h)
(h,h^)出现在对齐样本中,那么
(
h
^
,
r
,
t
)
(\hat h,r,t)
(h^,r,t)为真实三元组的概率较大,辅助概率公式如下:
同样的,如果
(
t
,
t
^
)
(t,\hat t)
(t,t^)出现在对齐样本中,那么
(
h
,
r
,
t
^
)
(h,r,\hat t)
(h,r,t^)为真实三元组的概率较大,辅助概率概率公式如下:
定义如下损失函数最大化公式(10)、(11)的概率:
其中
χ
′
\chi'
χ′和
χ
′
′
\chi''
χ′′分别表示头实体和尾实体出现在对齐样本中的关系三元组集合。以上公式用于增强关系视图中的实体嵌入,同样地,对于增强属性视图中实体嵌入,定义如下损失函数:
其中
Y
′
Y'
Y′表示属性三元组的集合,并且其三元组的头实体出现在对齐样本中。
3.2. 关系与属性同一性推理
3.2.1 关系
\,\,\,\,\,\,\,\,\,\,
由于关系
r
r
r没有对齐样本,因此提出软对齐概念,需要在训练的过程中找到属性对齐(软对齐)。给定一个关系三元组
(
h
;
r
;
t
)
(h;r;t)
(h;r;t),如果
(
r
,
r
^
)
(r,\hat r)
(r,r^)形成了关系软对齐,提出如下辅助概率公式:
定义三元组集合
S
r
e
l
=
{
(
r
,
r
^
,
s
i
m
(
r
,
r
^
)
)
∣
s
i
m
(
r
,
r
^
)
>
η
}
S_{rel} = \{(r,\hat r,sim(r,\hat r)) | sim(r,\hat r)>\eta\}
Srel={(r,r^,sim(r,r^))∣sim(r,r^)>η}来描述软对齐概念,其中
η
∈
(
0
,
1
]
\eta\in(0,1]
η∈(0,1]为相似度阈值,
s
i
m
(
.
)
sim(.)
sim(.)表示相似度计算方法,公式如下:
其中
c
o
s
(
.
)
cos(.)
cos(.)表示余弦相似度计算函数;
ϕ
(
n
a
m
e
(
.
)
)
\phi(name(.))
ϕ(name(.))为公式(3),表示名字嵌入获取函数;
α
1
\alpha_1
α1和
α
2
\alpha_2
α2为平衡因子,以权衡关系名称嵌入的相似度与关系三元组中关系嵌入的相似度之间的权重,且
α
1
,
α
2
>
0
,
α
1
+
α
2
=
1
\alpha_1, \alpha_2>0,\alpha_1+\alpha_2=1
α1,α2>0,α1+α2=1。将该相似度视为平滑系数,以减少不准确对齐的负面影响,提出如下损失函数来最大化公式(14)中的辅助概率:
其中 χ ′ ′ ′ \chi''' χ′′′表示关系三元组集合,并且元素中的关系出现在 S r e l S_{rel} Srel集合中。
3.2.2 属性
\,\,\,\,\,\,\,\,\,\, 同3.2.1关系同一性,在此不赘述,损失函数用符号 L C R A ( Θ ( 3 ) ) L_{CRA}(\Theta^{(3)}) LCRA(Θ(3))表示。
4. 视图融合
\,\,\,\,\,\,\,\,\,\, 不同的视图嵌入从不同的方面描述知识图谱的特征,直观地来看,实体嵌入能从多个视图嵌入中受益。本章节介绍三种不同的融合视图嵌入的方法。
4.1. 加权平均
最直接的融合方法为加权平均,将多个视图的实体嵌入加权平均:
其中
D
D
D表示视图的数量;权重
w
i
w_i
wi计算公式为:
其中
c
o
s
(
.
)
cos(.)
cos(.)为余弦相似度计算公式,
h
ˉ
\bar h
hˉ为多个视图实体嵌入的数学平均:
权重的计算依据为:如果一个视图的嵌入距离它的平均嵌入很远,那么它的权重就会更低。
4.2. 共享空间学习
\,\,\,\,\,\,\,\,\,\,
基于如下假设:各个视图嵌入空间都是从某个隐含的共享嵌入空间转换而来,提出共享空间转换融合方法,对于每一个视图嵌入空间,都对应了一个转换矩阵将其映射至共享视图空间。定义
H
~
\tilde H
H~为共享视图嵌入,即多视图嵌入融合后的实体嵌入空间,定义如下损失函数来优化
H
~
\tilde H
H~和转换矩阵
Z
(
i
)
Z^{(i)}
Z(i):
其中 ∣ ∣ . ∣ ∣ F 2 ||.||^2_F ∣∣.∣∣F2表示二范式; I I I为单位矩阵。当转换矩阵 Z ( i ) Z^{(i)} Z(i)为正交矩阵时,不会改变嵌入空间映射前后的距离特征。
4.3. 训练中融合
\,\,\,\,\,\,\,\,\,\,
该融合方法的目标为将各个视图的实体嵌入训练成一致的嵌入空间,基于该目标定义如下损失函数:
4.4. 融合过程算法
5. 实验
5.1. 实验数据集
DWY100K,来自于BootEA,源码链接中的数据已近做了预处理。
5.2. 实验结果对比
\,\,\,\,\,\,\,\,\,\,
图3的表格中呈现了MultiKE与以往的方法结果,可以看出提出的方法Hist@1/10、MR和MRR等指标上远超以往的方法。而DBP-YG上的结果比DBP-WD的结果有所下降,因为DBP-YG的两个知识图谱存在较大的异构性(不均匀性),DBP-YG的两个知识图谱的关系数量分别为302和31,属性数量跟别为334与23。
6. 结论与展望
\,\,\,\,\,\,\,\,\,\, 本文中提出了用于实体对齐的多视图KG嵌入框架,该框架从三种具有代表性的KGs视图中学习实体嵌入,并引入了KG训练方法用于对齐推理,还设计了三种试图嵌入融合策略来将特定视图的嵌入组合在一起。在真实数据集上的实验证明了该框架的有效性。在未来的工作中,我们计划研究更多可行的视图(例如,实体类型),以及跨语言实体对齐。
文章为阅读随笔,如有错误之处请批评指正,感谢您的阅读!