An Open-World Extension to Knowledge Graph Completion Models 论文笔记

最新推荐文章于 2023-05-06 15:50:36 发布

(づど)

最新推荐文章于 2023-05-06 15:50:36 发布

阅读量1.2k

点赞数 2

分类专栏：论文笔记文章标签：知识图谱 KGC Embedding

本文为博主原创文章，转载必须注明来源

本文链接：https://blog.csdn.net/qq_36888550/article/details/103548625

版权

论文笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

OWE-2019 A Open-World Extension of KGC Models

2019年 AAAI Technical Track: Knowledge Representation and Reasoning

Introduction

在问答系统、信息抽取、检索等方面，知识图谱是 #disambiguation 和 #discover 的重要来源。

众所周知，知识图谱能处理 #data_quality 问题。

为了处理 #data_quality 问题， #KGC 和 #Link_Prediction 可以在知识图谱中增加新的 #fact 。

KGC

目标在于评估某三元组出现在已知知识图谱的合理性，通用方法就是 #Embedding

KGC 分类

score triples

U表示the #embedding of entity/relation，可能是实数值或者复数值向量

φ取决于模型 e.g. simple translation over bilinear forms 2014, complex-valued forms 2016

Closed_World_KGC

常用方法 #TransE （h+r=t）

tail_prediction

head_prediction

Open_World_KGC

<未存在h, r, ? > 一个不存在知识图中实体和已知关系，根据一段文本描述，推断出相关实体。

KGC Models

NTN 2013

TransE 2013

（h+r=t） real-value #Link_Prediction Models

DistMult 2014

real-value #Link_Prediction Models

ComplEx 2016

complex-value #Link_Prediction Models

ProjE 2017

RDF2Vec 2016

Embedding

学习如何从包含损坏的三元组中分辨真实的三元组

OWE

定义

用预训练的单词嵌入来扩展已有的KGC模型。

对于一个新实体，我们将它的描述和名字转化为aggregate to a #text-based #embedding of entity representation。

在将基于文本转化为 a graph-based embedding 的实体表示。

优点

1.它与所使用的特定的KGC模型相互独立，互不干扰。这使得我们可以训练多个模型，从中选择最好的。

2.图结构的训练和文本结构的训练相互独立。这使得即时在缺少文本信息的情况下，我们也能利用full-scale knowledge graph structure。

models：与其他模型结合可得到 TransE-OWE,DistMult-OWE,ComplEx-OWE.

code：https://github.com/haseebs/OWE

FB15k-237-OWE：避免了对长文本的偏重，以及删除了某些不重要的规则tivial regularities(e.g. inverse relation)

方法

unseen head entity

存在一个unseen head entity，可以由name、textual description表示，将他们连接成一个word sequence W=(w1,w2...wn)

Word_Embedding 词向量

使用基于大型文本语料库的预训练 #Word_Embedding , 将W翻译成 V #text-based #Embedding

200-dimensional #Glove Embedding 2014

300-dimensional #Wikipedia2Vec Embedding 2016

包含 #pharse_embedding used as entity names

由于数据集中实体数量有限，导致出现 #过拟合现象。因此 @本文省略了对 #Embedding 的任何细化

Aggregate_function

利用一个 aggregate_function 从V中获取head entity

approachs

approachs in this literature range from simple averaging (2014) over LSTMs (2017) to relation-specific masking (2017).

simple averaging 2014

Word_Embedding vectors => a single representative embedding

simple averaging over LSTM 2017

relation-specific masking 2017

使用 #dropout，避免 #过拟合
在求平均之前，将某些词向量随机替换为未知标记

Transformation Function

text-based and graph-based #embedding 是在不同的信息源上独立训练的，因此需要一个transformation function使得他们之间互相匹配。

Ψmap

Linear

ComplEx

Affine

ComplEx

MLP

定义

具有ReLU为激活函数的4层MLP

输出层是affine的

训练

1 在全图上训练一个 #Link_Prediction Model，获得 #Entity_Embedding U

2 选取全体实体的文本元数据（name+textual description），提取对应的 #text-based #embedding V

3 使用 #batched_stochastic_gradient_descent 最小化损失函数，以对比Ψmap(V)和U的为目标函数。

#ComplEx ：损失函数是对实部和虚部求和后，对总和进行训练θ是Ψ的参数，比如权重矩阵、偏差b等

实验

数据集

Closed_World_KGC

Open_World_KGC

FB15k-237-OWE：避免了对长文本的偏重，以及删除了某些不重要的规则tivial regularities(e.g. inverse relation)

与最新技术的对比

models

Target Filtering Baseline：为所有通过目标过滤条件的目标分配随机分数

DKRL：在实体描述上用了2层CNN

conMask：对实体name、description使用CNN以及基于关系的注意力机制

分析

由于 FB15k-237-OWE 上的描述都很简短

conMask依赖通过注意力机制从实体描述中提取信息，而OWE从文本语料库中提取信息，这个文本语料库就是训练词向量的。这使得OWE不需要依赖冗长的描述

对比不同的 Link_Prediction Models

对比不同的 Transformation Function

相当简单的Transformation Function就能达到很好地效果

元数据丢失的影响

定义

其他模型如ConMask和DKRL依赖于文本描述，例如ConMask使用注意机制从长文本中选择特定于关系的目标词。因此，ConMask和DKRL需要完全删除没有元数据的三元组，并且无法了解这些实体的链接结构，因为它们使用联合训练。然而，在我们的方法中，我们只需要在转换Ψmapi学习的阶段删除这些实体，而链接预测模型仍然可以在完整的图上学习。

删除描述图a

删除随机选择的实体（介于20%到100%之间）的不同百分比的文本描述。这些实体的名字并没有被移除。

还能训练Ψmap

结果：

Wikipedia2Vec （蓝色）：这种删除对精度没有太大影响。即使删除100%的描述，也仅下降了2-3%的精度
分析：嵌入经过训练，我们可以仅凭名称查找实体嵌入

Glove（红色）：性能的下降是非常显著的，尤其是当所有实体的描述都被删除时。

删除多有元数据（名字+描述）图b

随机选择实体并删除它们的描述和名称，有效地在训练Ψmap时将这些实体从训练集中完全删除。

结果：训练实体中的一半被移除，则准确率下降不到1%。只有当删除90%的培训数据时，绩效才开始显著下降。

分析：归功于KGC学习

展现实验结果

评价：该方法相对于现有技术具有竞争力，并且对稀少的文本描述具有鲁棒性。

未来：与其他模型结合，比如conMask

利用更复杂的聚合函数

能从更长更复杂的内容中提取有效信息

参考博文

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

(づど) CSDN认证博客专家 CSDN认证企业博客

码龄8年

97: 原创

5万+: 周排名

2万+: 总排名

47万+: 访问

: 等级

2913: 积分

87: 粉丝

287: 获赞

97: 评论

970: 收藏

私信

关注

热门文章

分类专栏

最新评论

【已解决】U盘文件误删恢复，实用有效免费无充值 Recuva
xcRt: 我要昏过去了，我把半年来的实验数据全删了，而且已经覆盖了
【已解决】node-gyp 安装报错
从了解到放弃: 大佬，你好，我也出现unknown version “undefined” found的问题，但是windows-build-tools这个包我也一直下载不下来，请问有其他的解决办法吗[code=javascript]electron-builder version=24.13.3 os=10.0.22631 • loaded configuration file=package.json ("build" field) • writing effective config file=output\builder-effective-config.yaml • rebuilding native dependencies dependencies=@serialport/bindings-cpp@12.0.1 platform=win32 arch=x64 • packaging platform=win32 arch=x64 electron=32.0.1 appOutDir=output\win-unpacked • default Electron icon is used reason=application icon is not set • rebuilding native dependencies dependencies=@serialport/bindings-cpp@12.0.1 platform=win32 arch=ia32 ⨯ cannot execute cause=exit status 1 errorOut=npm ERR! code 1 npm ERR! path E:\project\etc-upper-computer-tools\node_modules\@serialport\bindings-cpp npm ERR! command failed npm ERR! command C:\WINDOWS\system32\cmd.exe /d /s /c node-gyp-build npm ERR! gyp info it worked if it ends with ok [/code]
Git 基础指令
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
【已解决】U盘文件误删恢复，实用有效免费无充值 Recuva
(づど): 官网下载，不是广告文
【已解决】U盘文件误删恢复，实用有效免费无充值 Recuva
wangbaoshuai1: 在哪获取？

大家在看

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。