论文解读：《COGKGE: A Knowledge Graph Embedding Toolkit and Benchmark for ...》

小稻虫

已于 2022-11-10 17:01:53 修改

阅读量263

点赞数 1

分类专栏： NLP 文章标签：知识图谱人工智能

于 2022-11-10 16:54:44 首次发布

NLP 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文名称全称：《COGKGE: A Knowledge Graph Embedding Toolkit and Benchmark for Representing Multi-source and Heterogeneous Knowledge》多源异构知识表示的知识图嵌入工具与基准

概述

该文章阐述了一种多源异构知识表示的知识图嵌入工具，文章第一作者Zhuoran Jin所在机构为中国科学院的自动化研究所模式识别国家实验室，该篇文章发表于2022年ACL（自然语言处理方向的顶级会议）。

摘要

本文提出了一种知识图嵌入(KGE)工具包，用于表示多源、异构的知识。对于多源知识，与现有方法主要关注实体为中心的世界知识不同，CogKGE还支持以事件为中心的世界知识、常识知识和语言知识的表示。对于异构知识，除了结构化的三元组外，CogKGE还利用额外的非结构化信息(如文本描述、节点类型和时间信息)来提升嵌入的意义。此外，CogKGE旨在为KGE任务提供统一的编程框架，并为下游任务提供一系列的知识表示。作为一个研究框架，CogKGE由核心模块、数据模块、模型模块、知识模块和适配器模块五个部分组成。作为一个知识发现工具包，CogKGE提供了经过预处理的嵌入式人员来发现新事实、聚类实体和检查事实。此外，我们构建了两个新的基准数据集:EventKG240K和CogNet360K，用于进一步研究多源异构KGE任务。我们还发布了一个在线系统，以可视化的方式发现知识。源代码、数据集和预训练的嵌入在GitHub上公开提供，并配有一个简短的指导视频。
在线系统地址：http://cognlp.com/cogkge/
GitHub地址：https://github.com/jinzhuoran/CogKGE/
指导视频地址：https://youtu.be/BiA2Rm9JYKs/

介绍

近年来，知识图谱（KGs）经历了快速发展。大量的知识图谱已经建立并成功应用于许多现实世界的应用。大多数知识图谱最初是以三要素(h，r，t)的形式组织的，其中h和t表示头和尾实体，r表示h和t之间的关系。然而，知识图谱是一个符号系统，不能直接应用于大规模的深度学习框架。为此，人们提出了一系列知识图谱嵌入（KGE）模型，将实体和关系表示为连续空间。
为了促进KGE模型的发展，一些引人注目的KGE工具包已经发布，如OpenKE、Graphvite、LibKGE、PyKEEN和Pykg2vec，为一系列KGE模型提供了易于使用的框架。然而，它们中的大多数仅仅基于实体相关的三元组来执行嵌入任务，所以它们仍然限于实际应用中的两个关键挑战：多源挑战和异构挑战。
至于多源挑战，现实世界中的KG不仅涉及世界知识（包括以实体为中心的知识和以事件为中心的知识），而且还涉及语言知识和常识性的知识。在各种实际应用中，我们需要同时使用多源知识。例如，如图1所示，为了理解一篇关于 "尼尔-阿姆斯特朗 “的文章，我们需要（1）以实体为中心的世界知识，例如，来自维基数据的 “尼尔-阿姆斯特朗在NASA工作”；（2）以事件为中心的世界知识，例如来自维基数据的"尼尔-阿姆斯特朗是阿波罗11号登月事件的参与者”；（3）语言知识，例如，来自FrameNet的 "参与 "的语言框架；（4）常识知识，例如，来自ConceptNet的 “火箭用于飞往月球”。然而，大多数现有的工具包只关注于表示世界知识，特别是以实体为中心的知识，而忽略了其他知识，如常识性知识和语言学知识。因此，开发一个能够代表多源知识的工具包是非常必要的。
至于异构性挑战，现实世界中的知识图谱不仅涉及三元组，还涉及其他信息，如文本描述、节点类型和时间信息。在许多实际应用中，我们应该把这些异构性的知识放在一起使用。同样，如图1所示，要理解一篇关于 "尼尔-阿姆斯特朗 "的文章，除了结构化的三元组，我们还需要：（1）文本描述，如 “尼尔-阿姆斯特朗是人类第一个登上月球的人”；（2）节点类型，如 “尼尔-阿姆斯特朗是一名宇航员”；（3）时间信息，如 “内尔-阿姆斯特朗从1962年到1971年参加了阿波罗11号登月”。所有这些异质性的知识都可以用来获得嵌入，但传统的KGE模型不能充分利用上述的额外信息。因此，我们非常希望能有一个工具箱，通过即插即用的知识适配器来连接这些异质知识。
为了解决上述两个问题，我们提出了一个知识图谱嵌入工具包，旨在表示多源和异构的知识。该工具包由五个部分组成，包括核心模块、数据模块、模型模块、适配器模块和知识模块。CogKGE目前支持17个模型、11个数据集、5个评价指标、4个知识适配器、4个损失函数、3个采样器和3个内置数据容器。此外，我们还构建了两个大规模的基准数据集以促进对KGE的研究。综上所述，我们的主要特点和贡献如下贡献如下：

多来源和异构性的知识表示。CogKGE探索了来自不同来源的知识的统一表示。此外，我们的工具包不仅包含基于三元组的嵌入模型，而且还支持额外信息的融合表示，包括文本描述、节点类型和时间信息。
全面的模型和基准数据集。CogKGE已经实现了四类17个经典的KGE模型，包括翻译距离模型、语义匹配模型、基于图神经网络的模型和基于转换器的模型。除了9个内置的公共数据集，我们还发布了两个新的大型基准数据集，用于进一步评估KGE方法，称为EventKG240K和CogNet360K。
可扩展和模块化的框架。CogKGE为KGE任务提供了一个编程框架。基于可扩展的架构，CogKGE可以满足模块扩展和二次开发的要求，预训练的知识嵌入可以直接应用于下游任务。
开放源代码和在线演示。除了工具包，我们还发布了一个在线CogKGE演示，以直观地发现知识。源代码、数据集和预训练的嵌入都可以在GitHub上公开获得。

系统架构

图2显示了CogKGE的整体系统结构。顶部部分由核心模块和数据模块组成。前者是工具包的基础，后者则提供基本的数据容器、加载器和处理器。底部是建立在顶部的基础上，模型模块包含很多内置的模型，知识模块整合了多源和异质的知识，而适配器模块则是两者之间的桥梁。
在这里插入图片描述

小结

在本文中，我们提出了CogKGE，一个用于表示多源和异构知识的知识图谱嵌入工具箱和基准。对于多源知识，CogKGE探索了世界、常识和语言知识的统一表示。对于异构知识，CogKGE结合了结构化和非结构化的知识来增强嵌入的意义。到目前为止，我们已经实现了17个经典的KGE模型。除了9个公共数据集，我们还发布了两个新的基准数据集，用于进一步评估KGE模型。此外，由于可扩展和模块化的架构，CogKGE不仅是一个KGE研究框架，也是一个知识发现库。除了工具包，我们还发布了一个在线系统，以直观地发现知识。在未来，更多的模型、基准数据集和知识适配器将被纳CogKGE。

小稻虫

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文解读：《COGKGE: A Knowledge Graph Embedding Toolkit and Benchmark for ...》

本文提出了一种知识图嵌入(KGE)工具包，用于表示多源、异构的知识。对于多源知识，与现有方法主要关注实体为中心的世界知识不同，CogKGE还支持以事件为中心的世界知识、常识知识和语言知识的表示。对于异构知识，除了结构化的三元组外，CogKGE还利用额外的非结构化信息(如文本描述、节点类型和时间信息)来提升嵌入的意义。此外，CogKGE旨在为KGE任务提供统一的编程框架，并为下游任务提供一系列的知识表示。作为一个研究框架，CogKGE由核心模块、数据模块、模型模块、知识模块和适配器模块五个部分组成。
复制链接

扫一扫