知识图谱论文梳理 HyTE:基于超平面的时序知识图谱
HyTE: Hyperplane-based Temporally aware Knowledge Graph Embedding
Knowledge Graph (KG) embedding has emerged as an active area of research resulting in the development of several KG embedding methods. Relational facts in KG often show temporal dynamics, e.g., the fact (Cristiano Ronaldo, playsFor, Manchester United) is valid only from 2003 to 2009. Most of the existing KG embedding methods ignore this temporal dimension while learning embeddings of the KG elements. In this paper, we propose HyTE, a temporally aware KG embedding method which explicitly incorporates time in the entity-relation space by associating each timestamp with a corresponding hyperplane. HyTE not only performs KG inference using temporal guidance, but also predicts temporal scopes for relational facts with missing time annotations. Through extensive experimentation on temporal datasets extracted from real-world KGs, we demonstrate the effectiveness of our model over both traditional as well as temporal KG embedding methods.
摘要
知识图谱(KG)嵌入已成为一个活跃的研究领域,因此有几种KG嵌入方法的发展。KG中的关系事实通常显示时间动态,例如,事实(克里斯蒂亚诺·罗纳尔多,playsFor,曼联)仅在2003年至2009年期间有效。大多数现有的 KG 嵌入方法在学习 KG 元素的嵌入时忽略了此时间维度。在本文中,我们提出了HyTE,这是一种时间感知的KG嵌入方法,通过将每个时间戳与相应的超平面相关联,明确地将时间合并到实体关系空间中。HyTE不仅使用时间指导执行KG推理,而且还通过缺失的时间注释预测关系事实的时间范围。通过对从真实世界KG中提取的时间数据集进行广泛的实验,我们证明了我们的模型在传统和时间KG嵌入方法中的有效性。
1、介绍
知识图谱 (KGs) 是大型的多关系图,其中节点对应于实体,类型化的边表示它们之间的关系。 KG 以三元组(实体、关系、实体)的形式对事实信念进行编码,例如 (Brussels, isCapitalOf, Belgium)。一些 KG 的示例包括 NELL (Mitchell et al., 2018)、YAGO (Suchanek et al., 2007) 和 Freebase (Bollacker et al., 2008)。知识图谱被发现可用于多种任务,即信息检索(Kotov 和 Zhai,2012;Xiong 和 Callan,2015)、问答(Dong et al,2015;Bordes et al,2015;Yao and Durme,2014 年)等。
在过去的几年中,KG 嵌入已经成为一个非常活跃的研究领域,导致了多种技术的发展(Bordes 等人,2013;Nickel 等人,2016b;Yang 等人,2014;Lin 等人。 , 2015 年;Trouillon 等人,2016 年;Dettmers 等人,2018 年;Guo 等人,2018 年)。这些方法学习 KG 中节点和关系的高维向量表示,同时保留各种图和知识约束。
我们注意到 KG 依赖并非普遍正确,因为它们往往仅在特定时间段内有效。例如*(Bill Clinton, presidentOf, USA)仅在 1993 年至 2001 年期间为真。具有这种时间有效性的 KG 信念被称为时间范围。这些时间范围越来越多地在几个大型 KG 上可用,例如 YAGO (Suchanek et al., 2007)、Wikidata (Erxleben et al., 2014)。主流的 KG 嵌入方法在学习 KG 中节点和关系的嵌入时忽略了这种时间范围的可用性或重要性。这些方法将 KG 视为静态图,并假设其中包含的信念是普遍正确的。这显然是不够的,并且可以想象在表示学习期间结合时间范围可能会产生更好的 KG 嵌入。尽管它很重要,但时间感知的 KG 嵌入是一个相对未开发的领域。最近,(Jiang et al., 2016) 提出了一种利用时间范围的 KG 嵌入方法。然而,(Jiang et al., 2016)中提出的方法不是直接将时间纳入学习的嵌入中,而是首先学习关系之间的时间顺序(例如,wasBorIn → wonPrize → deadIn)。然后在 KG 嵌入阶段将这些关系顺序合并为约束。因此,(Jiang et al., 2016)* 学习的嵌入没有明确的时间感知。
为了克服这一挑战,在本文中,我们提出了基于超平面的时间感知知识图谱嵌入(HyTE),这是一种新的知识图谱嵌入技术,它直接将时间信息整合到学习的嵌入中。 HyTE 将一个时间范围的输入 KG 分割成多个静态子图,每个子图对应一个时间戳。 HyTE 然后将每个子图的实体和关系投影到时间戳特定的超平面上。我们共同学习超平面(法线)向量和随时间分布的 KG 元素的表示。我们的贡献如下。
- 我们提出注意时间感知知识图(KG)嵌入这一重要但相对未探索的问题。特别是,我们提出了 HyTE,一种用于学习知识图 (KG) 嵌入的时间感知方法。
- 与之前对时间敏感的 KG 嵌入方法相比,HyTE 直接在学习的嵌入中编码时间信息。这使我们能够预测以前没有范围的 KG 依赖的时间范围。
- 通过对多个真实世界数据集的广泛实验,我们证明了 HyTE 的有效性。
我们在 https://github.com/malllabiisc/HyTE上提供了论文中使用的 HyTE 的源代码和数据集
2、相关工作
时间事实和事件提取:时间除了作为一种信息外,还为知识引入了一个单独的维度。因此,关系事实的时间范围是自动知识图谱构建和完成的必要部分。 T-YAGO (Wang et al., 2010) 从维基百科信息框等半结构化数据和仅使用正则表达式的类别中提取时间事实。另一方面,像 PRAVDA 这样的系统使用标签传播从自由文本源中获取时间信息。 CoTS (Talukdar et al., 2012b) 使用基于整数线性规划的方法对时间约束进行建模,并提出了具有少量种子示例的联合推理框架。
(Talukdar et al., 2012a) 中提出了一种发现事实关系之间时间顺序的方法。 TempEval 挑战(UzZaman 等人,2013;Verhagen 等人,2010)中介绍了提取时间丰富的事件和时间表达式并在它们之间排序的任务。用于解决该任务的各种方法(McDowell 等人,2017 年;Mirza 和 Tonelli,2016 年)在其他时间推理任务中被证明是有效的。尽管我们试图解决类似的问题,但本文提出的方法更多地与关系嵌入学习范式相关,而不是从网络中确定时间事实的范围。
关系嵌入学习方法:在这一领域已经进行了大量的研究,特别是对于 KG 完成或链接预测任务(Bordes et al., 2013)。 (Nickel et al., 2016a) 详细回顾了最近的 KG 嵌入学习方法。这些可以大致分为两种不同的范式。 TransE(Bordes et al., 2013), TransH(Wang et al., 2014), TransR (Lin et al., 2015), TransD (Ji et al., 2015)是基于平移距离的模型。这里的主题是最小化两个实体向量之间的距离,其中一个实体向量由关系向量转换。基于矩阵分解的方法领域包括双线性模型 RESCAL (Nickel et al., 2011)、DistMult (Yang et al., 2014)、HoIE (Nickel et al., 2016b)。其他一些值得注意的模型是神经张量网络 (NTN) (Socher et al., 2013)。我们还在第 3 节中提供了一些传统方法的背景知识。但是,在所有这些推理方法中,时间维度仍然保持沉默。
3、KG嵌入背景
在本节中,我们概述了现有的知识图表示学习方法 (Bordes et al., 2013), (Wang et al., 2014)。考虑具有一组实体 E 的 KG G。有向边集 D+ 由三元组 (h, r, t) 组成,其中边方向是从 h 到 t,边标签(也通常称为关系)是河。
3.1TransE和TransH
TransE (Bordes et al., 2013) 是一种简单有效的平移距离模型。它将关系解释为头和尾实体向量之间的平移向量。给定两个实体向量 eh, et ∈ Rn,它尝试将关系映射为平移向量 er ∈ Rn,即eh + er ≈ et 对于观察到的三元组(h, r, t)因此,用于合理三元组的基于距离的评分函数是,
f
(
h
,
r
,
t
)
=
‖
e
h
+
e
r
−
e
t
‖
l
1
/
l
2
,
f (h, r, t) = ‖e_h + e_r − e_t‖l_1/l_2 ,
f(h,r,t)=‖eh+er−et‖l1/l2,
其中,‖ · ‖l1/l2 是差分向量的 l1 或 l2 范数。对于观察到的或正确的三元组,f (h, r, t) 将被最小化。为了区分正确和错误的三元组,它们的 TransE 分数差异使用基于边际的成对排序损失来最小化。更正式地说,我们针对实体和关系向量进行优化。
∑
x
∈
D
+
+
∑
y
∈
D
−
m
a
x
(
0
,
f
(
x
)
−
f
(
y
)
+
γ
)
,
∑_{x∈D^+}+ ∑_{y∈D^-} max(0, f (x) − f (y) + γ),
x∈D+∑+y∈D−∑max(0,f(x)−f(y)+γ),
γ 是分隔正确和错误三元组的边距。 D+ 是所有正三元组的集合,即在 KG 中观察到的三元组。负样本是从集合中随机抽取的 TransE 无法对多对一、一对多、多对多类型的关系建模,因为它在涉及许多关系时没有学习实体的分布式表示。为了 2004 年解决这些情况,TransH被提议。 TransH (Wang et al., 2014) 将关系 r 建模为关系特定超平面上的向量,并在该特定超平面上投影与其关联的实体,以学习实体的分布式表示。
D
−
=
{
(
h
′
,
r
,
t
)
∣
h
′
∈
E
,
(
h
′
,
r
,
t
)
∉
D
+
}
∪
{
(
h
,
r
,
t
′
)
∣
t
′
∈
E
,
(
h
,
r
,
t
′
)
∉
D
+
}
D− = \{{(h^′, r, t)|h^′ ∈ E, (h^′, r, t) \not\in D^+}\} ∪ \{{(h, r, t^′)|t^′ ∈ E, (h, r, t^′) \not\in D^+}\}
D−={(h′,r,t)∣h′∈E,(h′,r,t)∈D+}∪{(h,r,t′)∣t′∈E,(h,r,t′)∈D+}
TransE 无法对多对一、一对多、多对多类型的关系建模,因为它在涉及许多关系时没有学习实体的分布式表示。为了 2004 年解决这些情况,TransH被提议。 TransH (Wang et al., 2014) 将关系 r 建模为关系特定超平面上的向量,并在该特定超平面上投影与其关联的实体,以学习实体的分布式表示。
我们注意到,不仅实体的角色随着时间而变化,而且它们之间的关系也在变化。在本文中,我们打算捕捉实体和关系的这种时间行为,并尝试相应地学习它们的嵌入。如上所述,TransH (Wang et al., 2014) 使用关系特定超平面来防止实体在涉及不同关系时表现出相同的特征。从 TransH 的目标中汲取灵感,我们提出了一种基于超平面的方法来学习时间分布的 KG 表示。
4、提出方法:HyTE
原论文: https://aclanthology.org/D18-1225.pdf.
图 1:在图中,向量 eh、er 和 et 对应于在时间 τ1 和 τ2 有效的三元组 (h, r, t)。 eh(τ1)、er(τ1) 和 et(τ1) 是该三元组在对应于时间 τ1 的超平面上的投影(与时间 τ2 类似)。我们的方法 HyTE 最小化平移距离 ∑i‖et(τi) + er(τi) − et(τi)‖1,以便学习该三元组中实体和关系的时间感知表示。
在本节中,我们将详细描述 HyTE(图 1),它不仅利用实体之间的关系属性,还使用与它们相关的时间元数据。
4.1时序知识图谱
通常知识图被视为由 (h, r, t) 形式的三元组组成的静态图。向三元组添加单独的时间维度会使 KG 动态化。考虑四元组 (h, r, t, [τs, τe]),其中 τs 和 τe 表示三元组 (h, r, t) 有效的开始和结束时间。与 (Jiang et al., 2016) 不同,我们将这个时间元事实直接合并到我们的学习算法中,以学习 KG 元素的时间嵌入。给定时间戳,该图可以分解为几个静态图,由在各自时间步长中有效的三元组组成,例如,知识图 G 可以表示为 G = Gτ1 ∪ Gτ2 ∪ · · · ∪ GτT ,其中 τi, i ∈ 1, 2,···,T 是离散时间点。
我们通过将 (h, r, t) 视为在 τs 和 τe 之间的每个时间点的正三元组,从四元组构建了这个时间分量图 (Gτ)。现在,给定一个四元组 (h, r, t, [τs, τe]),我们认为它对于 τs 和 τe之间的每个时间点都是一个正三元组。因此,我们在每个 Gτ 中包含 (h, r, t),其中 τs ≤ τ ≤ τe。对应于时间 τ 的正三元组的集合表示为 D+τ。
4.2翻译预计时间
TransE 在静态图的相同语义空间中考虑实体和关系向量。我们观察到时间是不同多对一、一对多或多对多关系的主要来源,例如,(h, r) 对可以在不同的时间点与不同的尾实体 t 相关联.因此,传统方法无法直接消除它们的歧义。在我们的时间引导模型中,我们希望实体具有与不同时间点相关联的分布式表示。
我们将时间表示为一个超平面,即对于 KG 中的 T 个时间步长,我们将有 T 个不同的超平面,由法线向量 wt1、wt2、···、wtT表示。因此,我们尝试在超平面的帮助下将空间划分为不同的时区。现在,在时间 τ 有效的三元组(即子图 Gτ)被投影到特定时间的超平面 wτ 上,其中它们的平移距离(我们的例子是 TransE 第 3 节)被最小化。为了说明,在图 1 中,三元组 (h, r, t) 对于时间帧 τ1 和 τ2 都有效。因此,它们被投影在对应于这些时间的超平面上。
现在我们计算 wτ 上的投影表示为,
P
τ
(
e
h
)
=
e
h
−
(
w
τ
⊤
e
h
)
w
τ
,
P
τ
(
e
t
)
=
e
t
−
(
w
τ
⊤
e
t
)
w
τ
,
P
τ
(
e
r
)
=
e
r
−
(
w
τ
⊤
e
r
)
w
τ
,
P_τ (e_h) = e_h − (w^\top_τ e_h)w_τ , P_τ (e_t) = e_t − (w^\top_τ e_t)w_τ , P_τ (e_r) = e_r − (w^\top_τ e_r)w_τ ,
Pτ(eh)=eh−(wτ⊤eh)wτ,Pτ(et)=et−(wτ⊤et)wτ,Pτ(er)=er−(wτ⊤er)wτ,
我们限制‖wτ‖2 = 1。
我们期望在时间 τ 有效的正三元组将具有 Pτ (eh) + Pτ (er) ≈ Pτ (et) 的映射。因此,我们使用以下评分函数。
f
τ
(
h
,
r
,
t
)
=
‖
P
τ
(
e
h
)
+
P
τ
(
e
r
)
−
P
τ
(
e
t
)
‖
l
1
/
l
2
.
f_τ (h, r, t) = ‖P_τ (e_h) + P_τ (e_r) − P_τ (e_t)‖_{l_1/l_2} .
fτ(h,r,t)=‖Pτ(eh)+Pτ(er)−Pτ(et)‖l1/l2.
我们为每个时间戳 τ 学习 {wτ}τT=1,以及实体和关系嵌入。因此,通过将三元组投影到其时间超平面中,我们将时间知识整合到关系和实体嵌入中,即相同的分布式表示在不同的时间点将具有不同的作用。
优化:如第 3.1 节所述,我们最小化基于边际的排名损失。
L
=
∑
τ
∈
[
T
]
∑
x
∈
D
τ
+
∑
y
∈
D
τ
−
m
a
x
(
0
,
f
τ
(
x
)
−
f
τ
(
y
)
+
γ
)
,
L= ∑_ {τ ∈[T ]} ∑ _{x∈D^+ _τ} ∑ _{y∈D^− _τ} max(0, f_τ (x) − f_τ (y) + γ),
L=τ∈[T]∑x∈Dτ+∑y∈Dτ−∑max(0,fτ(x)−fτ(y)+γ),
其中,
D
τ
+
D^+_τ
Dτ+ 是时间戳为 τ 的有效三元组的集合。负样本是从所有负样本的集合
D
τ
−
D^− _τ
Dτ− 中抽取的。我们探索了两种不同类型的负采样:
- 时间不可知负采样(TANS) 考虑不属于KG 的所有三元组的集合,与时间戳无关。更正式地说,对于时间步 τ,负样本是从集合中抽取的,
D τ − = { ( h ′ , r , t , τ ) ∣ h ′ ∈ E , ( h ′ , r , t ) ∉ D + } ∪ { ( h , r , t ′ , τ ) ∣ t ′ ∈ E , ( h , r , t ′ ) ∉ D + } . ( 1 ) D^− _τ = \{{(h^′, r, t, τ )|h^′ ∈ E, (h^′, r, t) \not\in D^+ }\} ∪ \{{(h, r, t^′, τ )| t^′ ∈ E, (h, r, t^′)\not\in D^+}\}. (1) Dτ−={(h′,r,t,τ)∣h′∈E,(h′,r,t)∈D+}∪{(h,r,t′,τ)∣t′∈E,(h,r,t′)∈D+}.(1) - 时间相关负采样(TDNS) 强调时间。除了与时间无关的负样本外,我们还添加了额外的负样本,这些负样本存在于 KG 中,但在特定时间戳的子图中不存在。因此我们从集合中抽取负样本,
D τ − = { ( h ′ , r , t , τ ) ∣ h ′ ∈ E , ( h ′ , r , t ) ∈ D + , ( h ′ , r , t , τ ) ∉ D τ + ∪ ( h , r , t ′ , τ ) ∣ t ′ ∈ E , ( h , r , t ′ ) ∈ D + , ( h , r , t ′ , τ ) ∉ D τ + . ( 2 ) D^− _τ = \{{(h^′, r, t, τ )|h^′ ∈ E, (h^′, r, t) ∈ D^+ , (h^′, r, t, τ )\not\in D^+ _τ }∪ {(h, r, t^′, τ )| t^′ ∈ E, (h, r, t^′) ∈ D^+, (h, r, t^′, τ ) \not\in D^+ _τ }. (2) Dτ−={(h′,r,t,τ)∣h′∈E,(h′,r,t)∈D+,(h′,r,t,τ)∈Dτ+∪(h,r,t′,τ)∣t′∈E,(h,r,t′)∈D+,(h,r,t′,τ)∈Dτ+.(2)
上述损失 L 在约束条件下被最小化。
‖ e p ‖ 2 ≤ 1 , ∀ p ∈ E , ‖ w τ ‖ 2 = 1 , ∀ τ ∈ [ T ] ‖e_p‖_2 ≤ 1, ∀ p ∈ E, ‖w_τ ‖_2 = 1, ∀ τ ∈ [T ] ‖ep‖2≤1,∀p∈E,‖wτ‖2=1,∀τ∈[T]
我们通过使用 L 对实体向量添加 l 2 l_2 l2 正则化来执行第一个约束。我们通过对时间嵌入进行归一化来处理第二个约束,即每次更新随机梯度下降后的超平面法线向量。
我们执行链接预测以及时间范围以显示 HyTE 的有效性。对于链路预测,我们使用与时间无关的负采样(TANS,等式 1)描述的优化过程来训练模型。时间范围任务(第 5.5 节)要求时间超平面在嵌入空间中结构良好。时间相关的负采样(TDNS Equation 2)更适用于时间范围问题。
Datasets | #Entity | #Relations | Train/Valid/Test |
---|---|---|---|
Wikidata12K | 12,554 | 24 | 32.5k/4k/4k |
YAGO11K | 10,623 | 10 | 16.4k/2k/2k |
Table 1: Details of datasets used. Please see Section 5.1 for details.
5、实验
我们评估我们的模型,并基于链接预测(第 5.3、5.4 节)和时间范围(第 5.5 节)与不同的最新基线进行比较。使用的评估指标与用于链接预测任务的传统 KG 嵌入方法 (Bordes et al., 2013) 相同。对于时间范围界定任务,我们提出了一个评估标准,因为没有一个基线适用于该任务。
5.1数据
诸如 Wikidata (Erxleben et al., 2014) 和 YAGO (Suchanek et al., 2007) 之类的知识图在事实的子集上有时间注释。我们从它们中提取了时间丰富的子图来测试我们的算法以及基线。
YAGO11k: 在 YAGO3 知识图谱(Mahdisoltani et al., 2013)中,一些时间相关的事实具有元事实,如(#factID,occurrenceSince,ts),(#factID,occurUntil,te)。包含occurrenceSince 和occurrenceUntil 的时间注释事实总数为722,494。其中,我们选择了前 10 个最频繁的时间丰富关系。为了处理稀疏性,我们递归地删除包含在子图中仅提及的实体的边。这确保了图中的健康连接。最后,通过遵循这个过程,我们获得了 20.5k 三元组和 10,623 个实体的纯时间图。
Wikidata12k: 我们从 (Leblay and Chekol, 2018)1 提出的 Wikidata 预处理数据集中提取了这个时间知识图。我们遵循与 YAGO11k 中描述的类似程序。在这里,我们还提取了包含开始和结束时间提及的子图。我们确保没有实体只有一条边与之相连。我们为这个案例选择了前 24 个频繁的时间丰富的关系,这导致了 40k 三元组和 12.5k 个实体。该数据集的大小几乎是 YAGO11k 的两倍。
5.2方法比较
为了评估我们算法的性能,我们与以下方法进行比较:
- t-TransE (Jiang et al., 2016):该方法使用关系的时间排序来对时间维度上的知识演化进行建模。他们通过观察到的关于头部实体的关系排序来规范传统的嵌入得分函数。
- HolE (Nickel et al., 2016b):我们认为这种方法代表了非时间 KG 表示学习中的最新状态。
- TransE (Bordes et al., 2013):这是一个简单但有效的基于翻译的模型。我们在 TransE 之上构建 HyTE,并展示了这种方法的收益。
- TransH (Wang et al., 2014):该方法将每个关系建模为不同的超平面,在这些超平面上执行平移操作。我们提出的方法 HyTE 也以类似的方式修改 TransE,将时间戳视为超平面。
- HyTE:我们提出的方法。请参阅第 4 节了解更多详情。
5.3实体预测
这里的任务是预测丢失的实体,给定一个不完整的关系事实与其时间。我们对 YAGO11K 和 Wikidata12k 数据集进行了实验。训练是从头部和尾部预测的角度进行的。更正式地说,为了从正确的三元组 (h, r, t, τ ) 生成负样本,我们将它们分成两部分 - (h, r, ?, τ )(用于尾部实体预测)和 (?, r, t, τ)(用于头部实体预测)。在这个任务中,我们遵循 TANS(等式 1)过程来生成负样本,即,对于每个尾部和头部查询项,我们随机替换一个实体,使得在图中不会观察到新生成的三元组,例如,我们采样t′ 使得
t
′
∈
E
/
t
和
(
h
,
r
,
t
′
,
τ
)
/
∈
D
τ
+
t^′ ∈ E / t 和 (h, r, t^′, τ ) / ∈ D^+ _τ
t′∈E/t和(h,r,t′,τ)/∈Dτ+。
排名协议: 对于测试三元组(h,r,t,τ),我们通过用所有可能的实体替换尾部实体(用于尾部预测)或头部实体(用于头部预测)来生成损坏的三元组。由 (Bordes et al., 2013) 提出的过滤协议说,损坏的三元组不能是图本身的一部分。为了说明,给定一个尾部预测任务的测试三元组 (h, r, t),我们计算候选集
C
(
h
,
r
)
=
(
h
,
r
,
t
′
:
∀
t
′
∈
E
)
(
T
r
a
i
n
∪
T
e
s
t
∪
V
a
l
i
d
)
∪
(
h
,
r
,
t
)
C(h, r) = {(h, r, t^′ : ∀t^′ ∈ E)} \ (Train ∪ T est ∪ Valid) ∪ (h, r, t)
C(h,r)=(h,r,t′:∀t′∈E) (Train∪Test∪Valid)∪(h,r,t) 。我们按照分数的递增顺序对 C(h, r) 中的所有三元组进行排名,并找到实际三元组 (h, r, t) 的排名。我们报告了所有测试查询 (MR) 的平均排名和前 10 名中正确实体的比例 (Hits@10)。
5.4关系预测
该任务的目的是预测两个实体之间的关系,即,对于给定的带有缺失关系 (h, ?, t, τ) 的时间戳三元组,我们预测关系 r。为了评估,我们用所有可能的关系破坏三元组并报告实际关系的等级。我们为此任务报告 Hits@1,因为这两个数据集的关系数量都非常少,YAGO11k 和 Wikidata12k 分别为 10 和 24。请注意,我们不会为此任务单独训练我们的模型,而是报告由用于头部和尾部实体预测的完全相同的模型获得的值。
此任务的主要动机是处理特定时间范围内两个实体之间的关系冲突。例如,给定 1992 年,一个人“X”和一个城市“Y”,人们想知道他/她是在那一年出生还是死在那个城市。通过在训练期间显式使用时间信息,我们发现我们的方法 HyTE 在两个数据集中都优于基线方法(如 6.1 所示)
5.5时间范围预测
鉴于 KG 事实的时间注释稀缺,预测 KG 非时间部分的时间是一个重要问题。与之前的基线方法不同,我们的模型可以预测给定三元组的时间范围。为了在这项任务中表现更好,我们希望超平面即使在与正三元组保持一致之后也能很好地分离。为了在训练过程中融入这种性质,我们使用了时间相关的负采样技术(TDNS Equation 2)。其余的训练过程与链接预测任务相同。该模型是在用于链接预测的相同列车拆分上进行训练的。在这个任务中,我们预测给定测试三元组 (h, r, t, ?) 的时间间隔或时间实例 τ。我们将三元组的关系和实体投影在所有时间超平面上,并检查该测试三元组在每个超平面上的合理性。为了评估,我们按照该特定三元组的合理性得分的递增顺序对时间框架进行排序。现在,我们选择与测试三元组相关的时间等级(τ)。如果相关时间是一个区间,我们考虑区间之间的时间中的最低排名。
表 2:实体预测任务的不同方法的平均排名(越低越好)和 Hits@10(越高越好)。提出的方法 HyTE 优于所有传统方法。 HyTE 优于 t-TransE 的性能可以归因于它直接包含时间的事实。有关详细信息,请参阅第 6.1 节。
表 3:关系预测任务的不同方法的平均排名(越低越好)和 Hits@1(越高越好)。提出的方法 HyTE 优于所有传统方法。尽管 t-TransE 强加了隐式关系排序,但 HyTE 还是以高优势击败了它。有关详细信息,请参阅第 6.1 节。
表 4:时间范围界定的预测平均排名(越低越好)。 YAGO11K 和 Wiki-data12k 的类数分别为 61 和 78。结果描述了 TDNS 的有效性。请参阅第 6.2 节
6、结果
实施细节:对于所有方法,我们在两个数据集上都保持了 b = 50k 的批量大小。嵌入的维度 (d) 在 {64, 128, 256} 范围内变化。所有方法的边距 (η) 均从集合 {1, 2, 5, 10} 中选择。用于 SGD 的学习率,
l
r
lr
lr ∈ {0.01, 0.001, 0.0001}。
最佳配置由验证集上相应的最低 MR 选择。对于 YAGO11k 和 Wikidata12k,我们在评分函数中使用 l1-norm 得到 d = 128,η = 10,lr = 0.0001。
YAGO11k 和 Wikidata12k 都包含以天为单位的时间注释。对于时间范围界定任务,我们仅通过删除月份和日期信息来处理年份级别的粒度。然后时间戳分别被视为 YAGO 和 Wikidata 的 61 和 78 个不同的间隔。拥有时间类的主要动机是在 KG 中均匀分布时间注释。例如,较少提及的年份被归入同一时间类,但频率较高的年份形成单独的类。我们通过在构建期间应用每个间隔 300 个三元组的最小阈值来处理在特定间隔内可能出现的三元组数量不平衡。为了说明这一点,在 Wikidata 中有像 1596-1777、1791-1815 这样跨度很大的类,因为在这些时间点发生的事件在 KG 中要少得多。像2013、2014这样频繁出现的年份是自成体系的。
6.1 性能分析与比较
不同任务获得的结果基于上述超参数。
Test quadruples | TransE | HyTE |
---|---|---|
Gordon Carroll, ?, Baltimore,[1928, 1928] | diedIn, wasBornIn | wasBornIn,diedIn |
S.Laubenthal, ?, Washington.,[2002, 2002] | wasBornIn,diedIn | diedIn, wasBornIn |
Eugene Sander, ?, Cornell Univ.,[1959, 1965] | worksAt,graduatedFrom | graduatedFrom,isAffiliatedTo |
Ernesto Maceda, ?, Nacionalist Party, [1971,1987] | isMarriedTo, diedIn | isAffiliatedTo,diedIn |
表 5:关系预测的定性结果示例。预测的顺序是降序。正确的是粗体。详情请参阅第 6.2 节。
链接预测: 表 2 中报告的结果证明了 HyTE 的功效。我们观察到,我们的模型在两个数据集中都显着优于传统的最先进的链路预测模型 HolE(Nickel et al,2016b)。我们还展示了与 TransE 相比的性能大幅提升(Bordes 等人,2013 年)。这一显着的收获从经验上验证了我们的主张,即以有原则的方式包含时间信息有助于学习更丰富的 KG 元素嵌入。我们注意到 HolE 在 MR 方面的表现明显很差,但它大大超过了 Hits@10 中的其他基线。
同样,与时间模型 t-TransE (Jiang et al., 2016) 相比,HyTE 被证明是有效的。 t-TransE 比 TransE 和 HolE 表现更好,因为它通过关系排序隐含时间合并。 HyTE 在关系实体语义空间中直接包含时间,其性能优于所有这些。
关系预测: 同样,在这种情况下,我们展示了对基线的改进。我们假设时间范围信息有助于消除关系之间的歧义,例如TransE 或 HolE 等传统方法会混淆诸如 wasBornIN 和 deadIn 等关系。时间信息肯定有助于解决这种冲突。从表 3 中,我们验证了这一说法。在第 6.2 节中,我们还展示了一些有利于我们断言的定性结果。
事实的时间范围: 我们报告三元组的正确时间实例的等级。如果三重范围是一个时间间隔,我们考虑对应于该时间间隔内的时间的最低等级。两个数据集的排名在表 4 中报告。基线模型 t-TransE (Jiang et al., 2016) 在这里不适用,因为它不直接使用时间元事实。我们还观察到 HyTE 超平面在空间中形成一个序列图。我们将在 6.2 小节中详细讨论它。
6.2 定性结果
表 5 包含关系预测任务的一些定性分析。我们提到了一些 transE 混淆了时间关系(如 wasBornIn 和 deadIn)的情况。考虑表 5 中的第二个示例,其中 transE 错误地预测了 wasBornIn 。 HyTE 预测 deadIn 是因为它从训练数据中预先知道 S.Laubenthal “出生于 1943 年”,“在 1973 年创造了 Excalibur”。由于查询年份是 2002 年,我们的方法通过其相对时间排序得出这样的结论。我们看到很多这样的例子,其中 HyTE 自然地学习一些与时间方向平行的关系排序。我们在模型的关系预测中观察到许多类型的不一致,例如,对于这个事实(Lauren Miller,wasBornIn,Lakeland,Florida,[1982,1982]),我们的模型预测 isMarriedTo。这可以归因于我们没有在模型中施加任何与类型相关的约束这一事实。我们期待在我们的模型中加入类型和时间约束作为未来的工作。
在图 2 中,我们展示了超平面的 128 维法线向量的二维 PCA 投影。这些向量通过时间相关的负采样(等式 2)针对时间范围界定任务进行训练。该图展示了 HyTE 根据数据在实体关系空间中构造超平面的能力。另外,请注意,我们没有使用任何排序约束对模型进行正则化,但它从数据本身学习时间排序以及聚类。我们假设这种现象是由于 TDNS(等式 2)而出现的。然而,在链接预测的情况下,我们注意到额外的样本会影响性能,因为它们来自 KG 本身。
图 2:该图说明了 128 维时间嵌入的 2-d PCA 投影,这是在训练 HyTE 进行时间范围界定任务后获得的。我们观察到经过训练的时间表示正在形成自然集群和排序。请参考第 6.2 节
7、结论
我们提出了 HyTE,这是一种基于超平面的学习时间感知知识图嵌入的方法。我们的方法利用 KG 的时间范围事实来执行链接预测以及未注释时间事实的时间范围预测。通过对现实世界数据集的广泛实验,我们证明了 HyTE 相对于传统和时间感知嵌入方法的有效性。未来,我们希望结合类型一致性信息来进一步改进我们的模型,并将 HyTE 与开放世界知识图谱完成相结合(Shi 和 Weninger,2018 年)。我们希望我们提出的时间表示学习算法将激发对时间 KG 嵌入学习的进一步研究。
参考文献
Kurt Bollacker, Colin Evans, Praveen Paritosh, Tim Sturge, and Jamie Taylor. 2008. Freebase: A collaboratively created graph database for structuring human knowledge. In Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data, SIGMOD ’08, pages 1247–1250, New York, NY, USA. ACM.
Antoine Bordes, Nicolas Usunier, Sumit Chopra, and Jason Weston. 2015. Large-scale simple question answering with memory networks. CoRR, abs/1506.02075.
Antoine Bordes, Nicolas Usunier, Alberto GarciaDuran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multirelational data. In C. J. C. Burges, L. Bottou, M. Welling, Z. Ghahramani, and K. Q. Weinberger, editors, Advances in Neural Information Processing systems 26, pages 2787–2795. Curran Associates, Inc.