An Open-World Extension to Knowledge Graph Completion Models 论文笔记

OWE-2019 A Open-World Extension of KGC Models

2019 AAAI Technical Track: Knowledge Representation and Reasoning

https://img.mubu.com/document_image/3e7f42ed-6ef9-46ed-81b7-51c3bfedde34-5120450.jpg

Introduction

在问答系统、信息抽取、检索等方面,知识图谱是 #disambiguation #discover 的重要来源。

众所周知,知识图谱能处理 #data_quality 问题。

为了处理 #data_quality 问题, #KGC #Link_Prediction 可以在知识图谱中增加新的 #fact

KGC

目标在于评估某三元组出现在已知知识图谱的合理性,通用方法就是 #Embedding

KGC 分类

score triples

https://img.mubu.com/document_image/e145cb7a-4df7-4eb5-9704-c614efc8d4ef-5120450.jpg

U表示the #embedding of entity/relation,可能是实数值或者复数值向量

φ取决于模型 e.g. simple translation over bilinear forms 2014, complex-valued forms 2016

Closed_World_KGC

常用方法 #TransE h+r=t

tail_prediction

https://img.mubu.com/document_image/c6e92e36-ebef-44b2-800e-f85676b371dc-5120450.jpg

head_prediction

https://img.mubu.com/document_image/51c28fba-86d8-4924-9f4c-1ec6b047fb73-5120450.jpg

Open_World_KGC

<未存在h, r, ? > 一个不存在知识图中实体和已知关系,根据一段文本描述,推断出相关实体。

KGC Models

NTN 2013

TransE 2013

https://img.mubu.com/document_image/eb6b69ce-319c-4070-b757-b794f043f405-5120450.jpg

h+r=t real-value #Link_Prediction Models

DistMult 2014

https://img.mubu.com/document_image/c3d77a95-bdd7-4fc5-8a29-46a0c5151c2f-5120450.jpg

real-value #Link_Prediction Models

ComplEx 2016

https://img.mubu.com/document_image/22d44914-df39-4a55-af96-cd2515593271-5120450.jpg

complex-value #Link_Prediction Models

ProjE 2017

RDF2Vec 2016

Embedding

学习如何从包含损坏的三元组中分辨真实的三元组

OWE

定义

用预训练的单词嵌入来扩展已有的KGC模型。

对于一个新实体,我们将它的描述和名字转化为aggregate to a #text-based #embedding of entity representation

在将基于文本转化为 a graph-based embedding 的实体表示。

优点

1.它与所使用的特定的KGC模型相互独立,互不干扰。这使得我们可以训练多个模型,从中选择最好的。

2.图结构的训练和文本结构的训练相互独立。这使得即时在缺少文本信息的情况下,我们也能利用full-scale knowledge graph structure

models:与其他模型结合可得到 TransE-OWE,DistMult-OWE,ComplEx-OWE.

codehttps://github.com/haseebs/OWE

FB15k-237-OWE:避免了对长文本的偏重,以及删除了某些不重要的规则tivial regularities(e.g. inverse relation)

方法

https://img.mubu.com/document_image/cd60533b-cdc7-4e8d-bd32-7cef0a458336-5120450.jpgunseen head entity

存在一个unseen head entity,可以由nametextual description表示,将他们连接成一个word sequence W=(w1,w2...wn)

Word_Embedding 词向量

使用基于大型文本语料库的预训练 #Word_Embedding , W翻译成 V​ #text-based #Embedding

200-dimensional #Glove Embedding 2014

300-dimensional #Wikipedia2Vec Embedding 2016

包含 #pharse_embedding used as entity names

由于数据集中实体数量有限,导致出现 #过拟合 现象。因此 @本文 省略了对 #Embedding 的任何细化

Aggregate_function

https://img.mubu.com/document_image/ec6266bc-4227-4ec4-bed9-13e971e57753-5120450.jpg

利用一个 aggregate_function 从V中获取head entity

approachs

approachs in this literature range from simple averaging (2014) over LSTMs (2017) to relation-specific masking (2017).

simple averaging 2014

Word_Embedding vectors => a single representative embedding

simple averaging over LSTM 2017

relation-specific masking 2017

使用 #dropout,避免 #过拟合
在求平均之前,将某些词向量随机替换为未知标记

Transformation Function

https://img.mubu.com/document_image/b9febaf3-403c-4c20-bfa6-0bbfadafb62d-5120450.jpg

text-based and graph-based #embedding 是在不同的信息源上独立训练的,因此需要一个transformation function使得他们之间互相匹配。​​

Ψmap

Linear

https://img.mubu.com/document_image/e4672520-e332-40a9-950d-8cf434c945ea-5120450.jpg     ComplExhttps://img.mubu.com/document_image/2703418c-6347-4551-99ec-826debe6cebb-5120450.jpg

Affine

https://img.mubu.com/document_image/c288cd9b-c246-4544-b7a7-2dcc51a65c54-5120450.jpg  ComplExhttps://img.mubu.com/document_image/33314cca-e2a3-4632-9f82-25059a49c23d-5120450.jpg

MLP 

定义

具有ReLU为激活函数的4MLP

输出层是affine

训练

1 在全图上训练一个 #Link_Prediction Model,获得 #Entity_Embedding U

2 选取全体实体的文本元数据(name+textual description),提取对应的 #text-based #embedding V

3 使用 #batched_stochastic_gradient_descent 最小化损失函数,以对比Ψmap(V)U的为目标函数。

https://img.mubu.com/document_image/9ba63482-ece1-4ef9-bd04-fd207ef2f0db-5120450.jpg

#ComplEx :损失函数是对实部和虚部求和后,对总和进行训练θ​Ψ的参数,比如权重矩阵、偏差b

实验

数据集

Closed_World_KGC

https://img.mubu.com/document_image/cb5f1d37-7faf-4505-b754-b60a46c5bd2f-5120450.jpg

Open_World_KGC

https://img.mubu.com/document_image/b41f95f4-6b0a-41bc-8a60-9fc96ab7d7d1-5120450.jpg


FB15k-237-OWE:避免了对长文本的偏重,以及删除了某些不重要的规则tivial regularities(e.g. inverse relation)

与最新技术的对比

https://img.mubu.com/document_image/e6c026f8-550d-402e-a95b-69c165af3922-5120450.jpg

models

Target Filtering Baseline:为所有通过目标过滤条件的目标分配随机分数

DKRL:在实体描述上用了2CNN

conMask:对实体namedescription使用CNN以及基于关系的注意力机制

分析

由于 FB15k-237-OWE 上的描述都很简短

conMask依赖通过注意力机制从实体描述中提取信息,而OWE从文本语料库中提取信息,这个文本语料库就是训练词向量的。这使得OWE不需要依赖冗长的描述

对比不同的 Link_Prediction Models

https://img.mubu.com/document_image/753e6727-cb86-49ba-80fc-ee17e6aa373c-5120450.jpg

对比不同的 Transformation Function

https://img.mubu.com/document_image/140ff4a6-f38a-4915-8ecb-31051c38e387-5120450.jpg


相当简单的Transformation Function就能达到很好地效果

元数据丢失的影响

https://img.mubu.com/document_image/75e6669e-4863-49de-ac60-c9d3bc8ec4b4-5120450.jpg

定义

其他模型如ConMaskDKRL依赖于文本描述,例如ConMask使用注意机制从长文本中选择特定于关系的目标词。因此,ConMaskDKRL需要完全删除没有元数据的三元组,并且无法了解这些实体的链接结构,因为它们使用联合训练。然而,在我们的方法中,我们只需要在转换Ψmapi学习的阶段删除这些实体,而链接预测模型仍然可以在完整的图上学习。

删除描述 a

删除随机选择的实体(介于20%100%之间)的不同百分比的文本描述。这些实体的名字并没有被移除。

还能训练Ψmap

结果:

Wikipedia2Vec (蓝色):这种删除对精度没有太大影响。即使删除100%的描述,也仅下降了2-3%的精度
分析:嵌入经过训练,我们可以仅凭名称查找实体嵌入

Glove(红色):性能的下降是非常显著的,尤其是当所有实体的描述都被删除时。

删除多有元数据(名字+描述) b

随机选择实体并删除它们的描述和名称,有效地在训练Ψmap时将这些实体从训练集中完全删除。

结果:训练实体中的一半被移除,则准确率下降不到1%。只有当删除90%的培训数据时,绩效才开始显著下降。

分析:归功于KGC学习

展现实验结果

https://img.mubu.com/document_image/89c711b4-dd2c-4d1c-9174-846f68e6c5d5-5120450.jpg

评价:该方法相对于现有技术具有竞争力,并且对稀少的文本描述具有鲁棒性。

未来:与其他模型结合,比如conMask

利用更复杂的聚合函数

能从更长更复杂的内容中提取有效信息

参考博文

原论文

KGC分类

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值