基于多数据源的知识图谱构建方法研究

最新推荐文章于 2024-07-02 17:51:41 发布

「已注销」

最新推荐文章于 2024-07-02 17:51:41 发布

阅读量1.8k

点赞数 2

分类专栏：知识图谱

本文链接：https://blog.csdn.net/qingwuh/article/details/81747081

版权

本文研究了基于多数据源的知识图谱构建方法，包括数据源获取、领域本体库构建、全局本体库构建、实体对齐和实体链接。采用自顶向下和自底向上相结合的方式，通过实体对齐和链接方法丰富知识图谱。实验表明，提出的基于相似性传播的实体对齐和约束嵌入转换的实体链接方法取得了良好效果。

摘要由CSDN通过智能技术生成

基于多数据源的知识图谱构建方法研究

摘要：针对多数据源的融合应用，构建了基于多数据源的知识图谱。首先，对不同领域内的数据源构建相应本体库，并将不同本体库通过数据融合映射到全局本体库，然后，利用实体对齐和实体链接方法进行知识获取和融合，最后，搭建知识图谱应用平台，提供查询和统计等操作。在实体对齐方面，利用传统的基于相似性传播实体对齐方法，获得良好的实体对齐效果；在实体链接方面，提出了基于约束嵌入转换的预测推理方法，实验结果表明，在预测准确率上取得较好的结果。

0 引言

在大数据时代背景下，随着海量数据的出现以及多数据源融合交叉应用，传统的数据管理模式以及查询方式受到一定的制约。近年来，知识图谱（Knowledge Graph）[1]作为一种新的知识表示方法和数据管理模式，在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系；其基本组成单位是“实体-关系-实体”三元组，以及实体及其相关属性-值对，实体间通过关系相互联结，构成网状的知识结构[2]。

随着谷歌知识图谱的发布，知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内，知识图谱的构建与研究已经起步，相应取得许多重要的研究成果。如：搜狗的知立方、百度知心；复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱[3]；金贵阳等[4]利用知识图谱和语义网技术，提出构建企业知识图谱的方法，并应用于钢铁企业信息集成，提高了企业信息查询的效率；胡芳槐[5]在博士论文中研究了基于多数据源的中文知识图谱构建方法，涉及到本体层构建、实体层的学习等，同时构建行业领域知识图谱的应用平台；王巍巍等[6]构建了双语影视知识图谱，包括影视本体库的构建、实体的链接、实体匹配等，并搭建了应用平台与开放数据访问接口；鄂世嘉等[7]提出了一种端到端基于中文百科数据的中文知识图谱自动化构建方案，并开发面向用户的中文知识图谱系统。

现有的行业领域知识图谱通常采用手工构建方式，缺乏统一的构建方法，且这类知识库目标是特定行业领域，因此，其描述范围极为有限。针对这些问题，提出了将不同领域知识库进行融合成一个知识图谱，旨在构建语义一致、结构一致的多数据融合知识图谱，实现对不同领域内的知识进行查询和展示，从而提高了数据查询效率。

本文提出一个多数据源融合的知识图谱构建流程，并对关键技术进行研究，包括数据源的获取、领域本体库的构建、全局本体库的构建、实体对齐、实体链接以及应用平台的搭建。文中利用某地区的医院医疗保健数据、空气污染监测数据和环境监测数据，构建了多数据融合的知识图谱。

1 知识图谱构建过程

知识图谱构建是知识图谱得以应用发展的前提，涉及实体抽取和实体及实体之间关系的建立，同时还需要很好地组织和存储抽取的实体与关系信息，使其能够被迅速的访问和操作[8]。知识图谱构建过程通常可以分成两步：知识图谱本体层构建和实体层的学习[5]。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习；实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。

知识图谱的构建方法通常有自顶向下和自底向上两种[2]。所谓自顶向下的方法是指先构建知识图谱的本体，即从行业领域、百科类网站及其它等高质量的数据源中，提取本体和模式信息，添加到知识库中；而自底向上的方法是指从实体层开始，借助于一定的技术手段，对实体进行归纳组织、实体对齐和实体链接等，并提取出具有较高置信度的新模式，经人工审核后，加入到知识图谱中。然而，在实际的构建过程中，并不是两种方法孤立单独进行着，而是两种方法交替结合的过程。本文在构建多数据源的知识图谱时采用两种方法的结合，首先采用自顶向下的方式来构建本体库，然后采用自底向上的方式进行提取知识来扩展知识图谱。