Article
文献题目:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcement
文献时间:2019
发表期刊:EMNLP
摘要
- 知识图谱(KG)推理旨在寻找关系的推理路径,以解决知识图谱中的不完整性问题。许多以前的基于路径的方法,如 PRA 和 DeepPath,都缺乏记忆组件,或者陷入训练中。因此,他们的表现总是依赖于良好的预训练。在本文中,我们提出了一个名为 AttnPath 的基于深度强化学习的模型,该模型将== LSTM 和 Graph Attention Mechanism 作为记忆组件==。我们定义了两个指标,平均选择率(MSR)和平均替换率(MRR),以量化衡量学习查询关系的难度,并利用它们在强化学习的框架下对模型进行微调。同时,提出了一种新的强化学习机制,通过强制代理每一步向前走,以避免代理不断地停在同一个实体节点上。基于此操作,所提出的模型不仅可以摆脱预训练过程,而且与其他模型相比也达到了最先进的性能。我们在具有不同任务的 FB15K-237 和 NELL 995 数据集上测试我们的模型。大量实验表明,我们的模型与许多当前最先进的方法有效且具有竞争力,并且在实践中表现良好。
引言
- 知识图谱 (KG),例如 NELL (Carl son et al., 2010)、Freebase (Bollacker et al., 2008) 和 WordNet (Miller, 1995) 在许多下游 NLP 应用程序中发挥着越来越重要的作用,例如 , 问答 (Dubey et al., 2018), 信息检索 (Liu et al., 2018), 个性化推荐 (Wang et al., 2019) 等。但是,KG 总是不完整的,这会影响许多下游任务。 KG 中的实体之间可能会丢失许多链接。 因此,如何通过基于推理的方法预测实体之间的缺失链接来完成知识图谱是一项重要且具有挑战性的任务。 例如,如果 KG 中都存在 p l a y e r P l a y s F o r T e a m ( X , Y ) playerPlaysForTeam(X, Y) playerPlaysForTeam(X,Y) 和 t e a m P l a y s I n L e a g u e ( Y , Z ) teamPlaysInLeague(Y, Z) teamPlaysInLeague(Y,Z),那么我们可以推断出运动员 P l a y s I n L e a g u e ( X , Z ) PlaysInLeague(X, Z) PlaysInLeague(X,Z),即在 X X X 和 Z Z Z 之间填充缺失的边缘运动员 P l a y s I n L e a g u e PlaysInLeague PlaysInLeague .
- 完成这项任务主要有三种方式,如 Rule-Based (Wang and Cohen, 2016; Yang et al., 2017), Embedding-Based (Bor des et al., 2013; Lin et al., 2015)和基于路径的(Lao et al., 2011)。同时,它为将深度强化学习 (DRL) 引入预测缺失链接的任务提供了新的视角,例如 DeepPath (Xiong et al., 2017),一种基于路径的方法。 DeepPath 是第一个将 DRL 纳入 KG 推理的工作。与 PRA 相比,它取得了显着的改进,但仍有一些缺点。首先,它缺乏记忆组件,导致需要预训练。预训练的操作需要为模型训练提供许多已知(或存在)的路径。这种蛮力操作可能会使模型在预训练的给定路径上容易过度拟合。其次,在训练时为 KG 中的不同关系设置相同的超参数是不合适的,这忽略了实体之间连接的多样性。最后,当agent选择了无效路径时,会停下来重新选择,导致不断选择这条无效路径,最终卡在一个节点上。
- 因此,在本文中,我们提出了一种新颖的深度强化学习模型和算法,旨在解决上述缺点。 所提出的模型也属于基于路径的框架。 我们的贡献可以总结如下:
- 我们提出了 AttnPath,这是一个将== LSTM 和图注意力==作为记忆组件的模型,并且不再需要进行预训练。
- 定义了两个指标(MSR 和 MRR),以定量测量学习关系的可替换路径的难度,用于微调模型。
- 提出了一种新的强化学习机制,通过强制代理每一步向前走,以避免代理不断停在同一实体节点上。
- 我们在 FB15K-237 和 NELL 995 数据集上使用两个下游任务测试 AttnPath:事实预测和链接预测。 我们还测试了寻找路径的成功率,并在实验中展示了图注意力机制的有效性。
相关工作
- 迄今为止,已经提出了许多解决 KG 不完备性问题的工作。基于规则的方法,如 ProPPR (Wang and Cohen, 2016) 和 Neural LP (Yang et al., 2017),手动或通过数学逻辑规则生成推理规则,然后根据现有的三元组应用它们来填充缺失的链接.尽管这类方法具有扎实的数学背景,但它们很难扩展到大型 KG,因为它们直接对符号进行操作,而可能的推理路径的数量与实体的数量成指数关系。基于嵌入的方法,如 TransE (Bordes et al., 2013) 和 TransR (Lin et al., 2015),将实体和关系映射到一个低维和连续的向量空间中,它捕获了实体和关系之间的距离特征。然后,他们通过比较两个训练实体的嵌入和查询关系的嵌入之间的距离来判断查询关系是否存在。这类方法需要KG中的所有三元组都参与训练,只适用于单跳推理。
- 基于路径的,如 PRA (Lao et al., 2011) 和 DeepPath (Xiong et al., 2017),训练智能体在 KG 上导航,找到特定关系的可替换路径,然后将它们用作下游任务的特征。路径排名算法(PRA)是第一个基于路径的推理方法。 Neelakantan 等人开发了一种基于 RNN 的组合模型,该模型以非原子方式组合了路径的含义和多跳关系连接的原因(Neelakantan 等人,2015)。 Guu 等人提出了一种软边缘遍历算子,它可以递归地应用于预测路径并减少单跳 KG 完成方法(如 TransE 和 TransR)面临的级联传播错误(Guu 等人,2015)。 Toutanova 等人提出了一种动态规划算法,该算法将所有关系的有界长度路径合并到 KG 中,并对组合路径表示中的关系和中间节点进行建模(Toutanova 等人,2016)。这样的表示可以帮助生成更多高质量的推理路径。
- Das 等人将 DeepPath(Xiong 等人,2017 年)改进为 MINERVA(Das 等人,2018 年),后者从 QA 的角度看待 KG。它摆脱了预训练,引入了 LSTM 来记忆之前经过的路径,并训练代理在某个实体上循环,如果它认为该实体是正确的答案。 Lin 等人通过引入奖励塑造和动作丢失来改进这两种方法(Lin 等人,2018)。奖励塑造用动态惩罚代替了无用选择的固定惩罚,动态惩罚可以基于基于边际的预训练嵌入,如 TransE,或基于概率的嵌入,如 ConvE (Dettmers et al., 2018)。而 action dropout 会随机掩盖一定比例的有效动作,以减少查询关系的不相关路径。 DIVA (Chen et al., 2018) 将路径视为潜在变量,将关系视为观察变量,从而构建变分推理模型来完成 KG 推理任务。它还使用波束搜索来拓宽搜索范围。 M-Walk (Shen et al., 2018) 利用另一种称为蒙特卡洛树搜索 (MCTS) 的 RL 算法来解决稀疏奖励的问题。注意力机制首先由 (Wang et al., 2018) 引入多跳 KG 推理。然而,它只计算查询嵌入和所有找到的路径嵌入的注意力权重。它们用于帮助判断香草模型找到的答案是否正确。
AttnPath:合并内存组件
- 在本节中,我们将介绍提议的 AttnPath 的详细信息。 我们还将展示平均选择率 (MSR) 和平均替换率 (MRR) 的定义,以及如何使用它们来微调模型以适应不同的查询关系。
用于 KG 推理的 RL 框架
- 由于我们使用强化学习(RL)作为顺序决策模型的训练算法,我们首先介绍了 KG 推理中 RL 框架的基本元素,包括环境、状态、动作和奖励。
- 环境:在这个任务中,环境指的是整个KG,不包括查询关系及其逆。 环境在整个训练过程中保持一致。
- 状态:代理的状态由三个部分连接:嵌入部分、LSTM 部分和图注意部分。 我们将在下一节展示 LSTM 部分和图注意力部分的计算,并首先介绍嵌入部分。
- 在 (Xiong et al., 2017) 之后,嵌入部分
m
t
m_t
mt 与两个子部分连接。 第一个是
e
t
e_t
et ,它是当前实体节点的嵌入。 另一个是
e
t
a
r
g
e
t
−
e
t
e_{target} - e_t
etarget−et ,表示尾部实体节点和当前节点之间的距离。 与使用 TransE (Bordes et al., 2013) 作为预训练嵌入的 DeepPath 不同,我们利用 TransD (Ji et al., 2015),这是对 TransE 的改进,也是常用的基准。 在 TransD 下,对于查询关系,我们将所有实体投影到该查询关系的向量空间上。 然后,实体的投影嵌入
e
⊥
e⊥
e⊥ 变为
- 其中 p p p 表示投影向量。 所以 m t m_t mt 应该是 [ e t ⊥ ; e t a r g e t ⊥ − e t ⊥ ] [e_t⊥; e_{target}⊥ - e_t⊥] [et⊥;etarget⊥−et⊥]。
- 动作:对于 KG 推理任务,动作是指代理选择关系路径向前迈进。 基于DRL的框架,根据模型得到的概率来选择关系。 操作有效或无效。 有效动作表示与当前实体有输出关系,无效动作表示不存在关系。
- Reward:奖励是根据动作是否有效,以及一系列动作是否可以在指定次数内导致ground truth尾实体。 我们采用 (Lin et al., 2018) 提出的奖励塑造技巧。 对于无效动作,奖励为-1。 对于不会导致基本事实的动作,我们选择 ConvE (Dettmers et al., 2018) 的输出作为奖励。 由于 ConvE 输出的概率在 (0, 1) 范围内,因此我们使用对数运算符来扩大该奖励的范围并提高辨别力。 对于导致基本事实的动作,即成功的情节,奖励是全局准确度、路径效率和路径多样性的加权和。 按照惯例,全局准确度设置为 1,路径效率是路径长度的倒数,因为我们鼓励代理尽可能少地步进。 ==路径多样性(path diversity)==定义为
- 其中 ∣ F ∣ |F| ∣F∣ 是找到的路径的数量, p p p 是路径嵌入,路径中所有关系嵌入的总和。 上述定义保证了有效动作的奖励总是大于无效动作的奖励,并且成功的情节episodes的奖励总是大于不成功的情节。
LSTM 和 Graph Attention 作为记忆组件
- 在我们的模型中,我们利用三层 LSTM,使代理能够记忆并从之前采取的行动中学习。 用
h
t
h_t
ht 表示 LSTM 在步骤
t
t
t 的隐藏状态,用 0 表示初始隐藏状态
h
0
h_0
h0。然后我们得到
- 其中 m t m_t mt 在 Eq(1) 中定义。 这是上述状态的 LSTM 部分。
- 通常,一个实体有几个不同的方面,例如,一名足球运动员可能与playForTteam 或playsInLeague 等职业关系相关联,也可能与配偶或父亲等家庭关系相关联。 对于不同的查询关系,代理最好更多地关注与查询关系高度相关的关系和邻居。 因此,我们将 Graph Attention 机制 (GAT) 引入到我们的模型中,这是由 (Velickovic et al., 2018) 提出的。
- GAT 确实是实体节点上的自注意力。 我们使用单层前馈神经网络来计算注意力权重,具有线性变换矩阵
W
W
W 和权重向量
a
⃗
\vec{a}
a 在所有实体之间共享。 选择具有负输入斜率
α
=
0.2
α = 0.2
α=0.2 的 LeakyReLU 作为非线性。 所以从实体
i
i
i 到实体
j
j
j 的注意力权重计算为
- 对于实体
i
i
i,我们只计算其所有直接连接的邻居的注意力权重,并使用 SoftMax 对其进行归一化。 所以归一化的注意力权重是
- 现在我们可以计算状态的图注意力部分,它只是所有邻居在注意力空间上嵌入的加权和
- 因此,实体
i
i
i 在时间
t
t
t 的状态向量
s
i
,
t
s_{i,t}
si,t 为
- 它依次输入一个三层前馈神经网络,其最终输出是一个长度等于 KG 中所有关系数的 Softmax 概率。 代理选择一个动作并获得奖励。 在成功到达尾部实体或未达到指定次数后,将使用整个情节的奖励来更新所有参数。 优化是使用 REINFORCE (Williams, 1992) 算法完成的,并使用以下随机梯度更新
θ
θ
θ:
- 其中
e
s
e_s
es 是头部实体,
r
r
r 是查询关系,而
π
θ
(
a
t
∣
s
t
)
π_θ(a_t|s_t)
πθ(at∣st) 是所有关系的概率。 图 1 显示了我们的 AttnPath 模型。
- 图 1:AttnPath:由 LSTM 和图注意力组成的用于 KG 推理的 RL 框架。
平均选择/替换率
- 对于不同的查询关系,需要为每个查询关系训练不同的模型。 而在实践中,每个关系的难度值是完全不同的。 一些关系可能有更多的替换关系,这表明代理可以很容易地选择一条从头实体到尾实体的替换路径。 所以我们在这里发明了两个指标,平均选择率(MSR)和平均替换率(MRR),来量化衡量每个关系的难度值。
- 用一组
T
r
=
{
(
h
,
r
o
,
t
)
∣
r
o
=
r
}
T_r = \{(h, r_o, t)|r_o = r\}
Tr={(h,ro,t)∣ro=r} 表示与关系
r
r
r 相关的所有三元组。 关系
r
r
r 关于三元组
(
h
,
r
,
t
)
(h, r, t)
(h,r,t) 的选择率定义为
- 即关系 r r r 占 h h h 出路的比例。
- 因此,MSR 是
T
r
T_r
Tr 上 SR 的平均值:
- 较低的 MSR 表示学习 r r r 更困难,因为与关系 r r r 连接的实体可能有更多方面。
- 关系
r
r
r 关于三元组
(
h
,
r
,
t
)
(h, r, t)
(h,r,t) 的替换率定义为
- 即直接连接 h h h 和 t t t 的关系的比例,除了关系 r r r。
- 类似地,MRR 是
T
r
T_r
Tr 上 RR 的平均值:
- 较高的 MRR 表示一个关系可能有更多的替换关系,因此更容易学习,因为代理可以直接选择替代关系来到达目的地。
- 在我们的模型中,我们有三种方法来防止过拟合:L2 正则化、dropout 和 action dropout。 然而,对于更容易学习的关系(高 MSR 和 MRR),我们希望施加更多的正则化以鼓励代理找到更多不同的路径,而不会过度拟合立即成功。 否则,对于更难学习的关系(低 MSR 和 MRR),我们最好关注找到路径的成功率,所以我们应该减少正则化。
- 为简单起见,我们使用指数来计算关系 r r r 的难度系数。 它被定义为 e x p ( M S R ( r ) + M R R ( r ) ) exp(MSR(r)+MRR(r)) exp(MSR(r)+MRR(r)) 并分别乘以三种正则化方法的基本速率。 正则化方法的基本速率是基于 KG 的,在同一个 KG 中的所有关系中都适用。
整体训练算法
- 基于所提出的模型,我们提出了一种新的训练算法,如算法 1 所示。
- 我们在算法中的贡献之一是,当代理选择无效路径时,我们的模型不仅会惩罚它,还会强制它选择有效关系以向前迈进。 来自神经网络的概率在所有有效关系上进行了归一化,这反过来又作用于强制动作的概率。
- 在初始化之后,第 6 行根据网络的输出对动作进行采样。 当代理选择无效动作时,执行第 7 ∼ 10 行,第 9 ∼ 10 行强制代理前进。 当代理选择一个有效动作时,执行第 12 行。 第 19、22 和 25 行分别更新了无效动作、成功情节中的有效动作和不成功情节中的有效动作的参数,奖励为 -1、 R t o t a l R_{total} Rtotal 和 R s h a p i n g R_{shaping} Rshaping。
实验
- 增量在本节中,我们将进行广泛的实验来验证我们提出的 AttnPath 的有效性。 对于每个任务,我们将主要关注三个量化指标:寻找路径的成功率(SR)、事实预测的 MAP(FP)和链接预测的 MAP(LP)。 我们还将演示一些推理路径和三元组,以表明图注意力在寻找更多高质量路径和挖掘实体的哪个方面在特定任务中是重要的方面是有效的。
数据集和设置
- 我们的实验中使用了两个数据集,FB15K-237 (Toutanova et al., 2015) 和 NELL-995 (Xiong et al., 2017)。 这两个数据集的统计数据显示在表 1 中。按照之前的工作,对于每个三元组 ( h , r , t ) (h, r, t) (h,r,t),我们添加其逆三元组 ( t , r − 1 , h ) (t, r^{−1}, h) (t,r−1,h),让代理退后一步。
- 我们在这里总结了我们实验中涉及的超参数。 预训练嵌入维数设置为 100。LSTM 隐藏维数设置为 200。注意维数设置为 100。因此, s s s 是一个 500 维向量,通过将上述三个向量与预训练嵌入的两倍连接起来 方面。 λ 1 λ_1 λ1 为 0.1, λ 2 λ_2 λ2 为 0.8, λ 3 λ_3 λ3 为 0.1。 对于 FB15K-237 数据集,我们将基础 L2 正则化、Dropout 率和 action dropout 率分别设置为 0.005、0.15 和 0.15。 此外,对于 NELL-995,我们将它们分别设置为 0.005、0.1 和 0.1。 我们选择 Adam (Kingma and Ba, 2015) 作为优化器,不同的学习率分别为 0.001、 β 1 β_1 β1 0.9 和 β 2 β_2 β2 0.999。 对于每个任务,我们训练 500 集,并且对于每个集,最大步数设置为 50。
- 我们通过基于 BFS 的方法 (Xiong et al., 2017) 在训练时验证 FP 和 LP 任务中每个三元组的学习路径。
寻路成功率
- 我们的模型对环境一无所知,一开始是三倍,因为它不依赖预训练。 因此,我们记录了最近 10 集的总 SR 和 SR,以验证智能体学习路径的能力。 对于训练样本少于 500 个的任务,先对样本进行迭代,然后随机抽样达到 500 集。 对于训练样本超过 500 个的任务,我们选择 500 个进行训练。
- 我们从 NELL-995 中选择两个关系,
t
h
l
e
t
e
P
l
a
y
s
I
n
L
e
a
g
u
e
thletePlaysInLeague
thletePlaysInLeague 和
o
r
g
a
n
i
z
a
t
i
o
n
H
e
a
d
q
u
a
r
t
e
r
e
d
I
n
C
i
t
y
organizationHeadquarteredInCity
organizationHeadquarteredInCity,来调查其最近 10 集的总 SR 和 SR。 前者的MSR和MRR相对较低,后者较高。 图 2 显示了结果。 可以发现,DeepPath 一开始优于我们的方法,但是在 50 ∼ 150 个 epoch 之后,我们的模型超过了它。 从 AttnPath Force 的 SR-10 中,我们发现初始 SR 近似于 MRR,因为模型一开始什么都不知道,所以它随机选择一条路径。 随着训练的进行,性能会稳步提高。 在 FB15K-237 的其他关系中也可以找到类似的结果。
- 图 2:NELL-995 的两个关系的总 SR 和 SR-10。 DeepPath / AttnPath TransD 意味着使用 TransD 作为预训练嵌入。 AttnPath MS/RR 正在添加 MSR 和 MRR 以微调超参数。 AttnPath Force 正在迫使代理向前迈进每一步。 本节通篇使用这些缩写。
事实预测
- 事实预测(FP)旨在预测未知事实的真假。正三元组和负三元组的比例约为 1 : 10。对于每个关系,我们使用所有找到的路径和长度的倒数作为权重,根据路径在
h
h
h 和
t
t
t 之间是否有效来累积每个三元组的分数.分数在所有测试集中进行排名,平均精度(MAP)用作评估指标。结果如表2所示。可以看出AttnPath明显优于TransE/R和DeepPath。 AttnPath MS / RR 使用 MSR 和 MRR 来微调超参数,也获得了性能提升。 AttnPath Force 也很有效。通过强制agent每一步向前走,提高了寻路的SR,进而丰富了下游任务的特征。这对于缺少直接连接的替换路径并需要具有长期依赖关系的路径的关系尤其重要。事实上,我们的方法在两个数据集上都达到了 SOTA 结果。
- 表 2:事实预测 MAP (%)。 TransE /H / R / D 的结果引用自 (Xiong et al., 2017)。 DeepPath 使用 TransD 重新训练以进行公平比较,其性能略好于基于 TransE 的 (Xiong et al., 2017)。
链接预测
- 链接预测(LP)旨在预测目标实体。 对于每个
(
h
,
r
)
(h, r)
(h,r) 对,有一个基本事实
t
t
t 和大约 10 个生成的错误
t
t
t。 它分为训练集和测试集。 我们使用找到的路径作为二元特征,并在训练集上训练分类模型,并将其应用于测试集。 LP 也使用 MAP 作为评估指标,详细结果如表 3 所示。与 FP 一样,我们的模型在 LP 和 FB15K-237 数据集上的 SOTA 结果也取得了更好的结果。
- 但是,我们也注意到 AttnPath 在一小部分查询关系下并没有达到最佳结果,甚至低于 TransE / R。通过分析与这些关系相关的三元组,我们发现:1)它们有更多的其他关系的出边指向不是真正尾巴的实体,因此这些查询关系的MSR很低。 2)尾实体只与查询关系及其逆的边连接,而这些边在训练过程中被移除,因此尾实体变得孤立,没有任何可能的可替换路径。 它还将降低这些查询关系的 MRR。 以birthPlace 和bornLocation 为例。 如果一个人出生在偏远的地方,这个地方很难与其他实体联系起来,所以很容易被孤立。 然而,这种一对一的关系是 TransX 方法的优势。
定性分析
DeepPath 和 AttnPath 找到的路径
- 我们以 FB15K-237 中的 capitalOf 和 NELL-995 中的 playerPlaysInLeague 为例,分析 DeepPath 和 AttnPath 找到的这些路径。 表 4 显示了所有方法的前 5 个频繁路径及其频率。 它表明 AttnPath 更能够捕获关系之间的长期依赖关系,这对于缺乏直接连接的可替换路径的关系很有用。 AttnPath 还可以找到更重要和集中的路径,因此路径的分布没有沉重的长尾。 在训练过程中,我们还发现 AttnPath 在进入死胡同时更擅长后退。
- 表 4:使用两种方法为 capitalOf (FB15K-237) 和 playerPlaysInLeague (NELL-995) 找到的前 5 个频繁路径。 “inv”表示反比关系。
图注意力机制的有效性
- 我们对几对实体和关系进行采样,计算实体在该关系下对其邻居的注意力权重,并研究具有前 5 个注意力权重的邻居。 表 5 显示了示例。 这表明 GAT 能够更加关注与查询关系相关的邻居,特别是对于 Anthony Minghella 和 Brandon Marshall,他们对具有不同查询关系的邻居的关注度不同。
- 表 5:显示模型在特定关系下最关注哪个邻居的样本。 粗体文本表示该实体与查询关系相关。 前四对来自 FB15K-237,后四对来自 NELL-995。
结论和未来工作
- 在本文中,我们提出了 AttnPath,这是一种基于 DRL 的 KG 推理任务模型,它结合了 LSTM 和 Graph Attention Mechanism 作为记忆组件,以减轻模型的预训练。 我们还发明了两个指标,MSR 和 MRR,来衡量关系的学习难度,并用它来更好地微调训练超参数。 我们改进了训练过程,以避免代理陷入无意义的状态。 定性实验和定量分析表明,我们的方法明显优于 DeepPath 和基于嵌入的方法,证明了其有效性。
- 未来,我们有兴趣利用多任务学习,使模型能够同时学习多个查询关系的推理路径。 我们还想研究如何将 GAT、MSR 和 MRR 用于其他与 KG 相关的任务,例如 KG 表示、关系聚类和 KB-QA。
参考文献
- Petar Velickovic, Guillem Cucurull, Arantxa Casanova Adriana Romero, Pietro Lio, and Yoshua Bengio. 2018. Graph attention networks. In ICLR.