OWE-2019 A Open-World Extension of KGC Models
2019年 AAAI Technical Track: Knowledge Representation and Reasoning
Introduction
在问答系统、信息抽取、检索等方面,知识图谱是 #disambiguation 和 #discover 的重要来源。
众所周知,知识图谱能处理 #data_quality 问题。
为了处理 #data_quality 问题, #KGC 和 #Link_Prediction 可以在知识图谱中增加新的 #fact 。
KGC
目标在于评估某三元组出现在已知知识图谱的合理性,通用方法就是 #Embedding
KGC 分类
score triples
U表示the #embedding of entity/relation,可能是实数值或者复数值向量
φ取决于模型 e.g. simple translation over bilinear forms 2014, complex-valued forms 2016
Closed_World_KGC
常用方法 #TransE (h+r=t)
tail_prediction
head_prediction
Open_World_KGC
<未存在h, r, ? > 一个不存在知识图中实体和已知关系,根据一段文本描述,推断出相关实体。
KGC Models
NTN 2013
TransE 2013
(h+r=t) real-value #Link_Prediction Models
DistMult 2014
real-value #Link_Prediction Models
ComplEx 2016
complex-value #Link_Prediction Models
ProjE 2017
RDF2Vec 2016
Embedding
学习如何从包含损坏的三元组中分辨真实的三元组
OWE
定义
用预训练的单词嵌入来扩展已有的KGC模型。
对于一个新实体,我们将它的描述和名字转化为aggregate to a #text-based #embedding of entity representation。
在将基于文本转化为 a graph-based embedding 的实体表示。
优点
1.它与所使用的特定的KGC模型相互独立,互不干扰。这使得我们可以训练多个模型,从中选择最好的。
2.图结构的训练和文本结构的训练相互独立。这使得即时在缺少文本信息的情况下,我们也能利用full-scale knowledge graph structure。
models:与其他模型结合可得到 TransE-OWE,DistMult-OWE,ComplEx-OWE.
code:https://github.com/haseebs/OWE
FB15k-237-OWE:避免了对长文本的偏重,以及删除了某些不重要的规则tivial regularities(e.g. inverse relation)
方法
unseen head entity
存在一个unseen head entity,可以由name、textual description表示,将他们连接成一个word sequence W=(w1,w2...wn)
Word_Embedding 词向量
使用基于大型文本语料库的预训练 #Word_Embedding , 将W翻译成 V #text-based #Embedding
200-dimensional #Glove Embedding 2014
300-dimensional #Wikipedia2Vec Embedding 2016
包含 #pharse_embedding used as entity names
由于数据集中实体数量有限,导致出现 #过拟合 现象。因此 @本文 省略了对 #Embedding 的任何细化
Aggregate_function
利用一个 aggregate_function 从V中获取head entity
approachs
approachs in this literature range from simple averaging (2014) over LSTMs (2017) to relation-specific masking (2017).
simple averaging 2014
Word_Embedding vectors => a single representative embedding
simple averaging over LSTM 2017
relation-specific masking 2017
使用 #dropout,避免 #过拟合
在求平均之前,将某些词向量随机替换为未知标记
Transformation Function
text-based and graph-based #embedding 是在不同的信息源上独立训练的,因此需要一个transformation function使得他们之间互相匹配。
Ψmap
Linear
ComplEx
Affine
ComplEx
MLP
定义
具有ReLU为激活函数的4层MLP
输出层是affine的
训练
1 在全图上训练一个 #Link_Prediction Model,获得 #Entity_Embedding U
2 选取全体实体的文本元数据(name+textual description),提取对应的 #text-based #embedding V
3 使用 #batched_stochastic_gradient_descent 最小化损失函数,以对比Ψmap(V)和U的为目标函数。
#ComplEx :损失函数是对实部和虚部求和后,对总和进行训练θ是Ψ的参数,比如权重矩阵、偏差b等
实验
数据集
Closed_World_KGC
Open_World_KGC
FB15k-237-OWE:避免了对长文本的偏重,以及删除了某些不重要的规则tivial regularities(e.g. inverse relation)
与最新技术的对比
models
Target Filtering Baseline:为所有通过目标过滤条件的目标分配随机分数
DKRL:在实体描述上用了2层CNN
conMask:对实体name、description使用CNN以及基于关系的注意力机制
分析
由于 FB15k-237-OWE 上的描述都很简短
conMask依赖通过注意力机制从实体描述中提取信息,而OWE从文本语料库中提取信息,这个文本语料库就是训练词向量的。这使得OWE不需要依赖冗长的描述
对比不同的 Link_Prediction Models
对比不同的 Transformation Function
相当简单的Transformation Function就能达到很好地效果
元数据丢失的影响
定义
其他模型如ConMask和DKRL依赖于文本描述,例如ConMask使用注意机制从长文本中选择特定于关系的目标词。因此,ConMask和DKRL需要完全删除没有元数据的三元组,并且无法了解这些实体的链接结构,因为它们使用联合训练。然而,在我们的方法中,我们只需要在转换Ψmapi学习的阶段删除这些实体,而链接预测模型仍然可以在完整的图上学习。
删除描述 图a
删除随机选择的实体(介于20%到100%之间)的不同百分比的文本描述。这些实体的名字并没有被移除。
还能训练Ψmap
结果:
Wikipedia2Vec (蓝色):这种删除对精度没有太大影响。即使删除100%的描述,也仅下降了2-3%的精度
分析:嵌入经过训练,我们可以仅凭名称查找实体嵌入
Glove(红色):性能的下降是非常显著的,尤其是当所有实体的描述都被删除时。
删除多有元数据(名字+描述) 图b
随机选择实体并删除它们的描述和名称,有效地在训练Ψmap时将这些实体从训练集中完全删除。
结果:训练实体中的一半被移除,则准确率下降不到1%。只有当删除90%的培训数据时,绩效才开始显著下降。
分析:归功于KGC学习
展现实验结果
评价:该方法相对于现有技术具有竞争力,并且对稀少的文本描述具有鲁棒性。
未来:与其他模型结合,比如conMask
利用更复杂的聚合函数
能从更长更复杂的内容中提取有效信息