基于多数据源的知识图谱构建方法研究

本文研究了基于多数据源的知识图谱构建方法,包括数据源获取、领域本体库构建、全局本体库构建、实体对齐和实体链接。采用自顶向下和自底向上相结合的方式,通过实体对齐和链接方法丰富知识图谱。实验表明,提出的基于相似性传播的实体对齐和约束嵌入转换的实体链接方法取得了良好效果。
摘要由CSDN通过智能技术生成

基于多数据源的知识图谱构建方法研究

摘要:针对多数据源的融合应用,构建了基于多数据源的知识图谱。首先,对不同领域内的数据源构建相应本体库,并将不同本体库通过数据融合映射到全局本体库,然后,利用实体对齐和实体链接方法进行知识获取和融合,最后,搭建知识图谱应用平台,提供查询和统计等操作。在实体对齐方面,利用传统的基于相似性传播实体对齐方法,获得良好的实体对齐效果;在实体链接方面,提出了基于约束嵌入转换的预测推理方法,实验结果表明,在预测准确率上取得较好的结果。

0 引言

在大数据时代背景下,随着海量数据的出现以及多数据源融合交叉应用,传统的数据管理模式以及查询方式受到一定的制约。近年来,知识图谱(Knowledge Graph)[1]作为一种新的知识表示方法和数据管理模式,在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系;其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构[2]。

随着谷歌知识图谱的发布,知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内,知识图谱的构建与研究已经起步,相应取得许多重要的研究成果。如:搜狗的知立方、百度知心;复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱[3];金贵阳等[4]利用知识图谱和语义网技术,提出构建企业知识图谱的方法,并应用于钢铁企业信息集成,提高了企业信息查询的效率;胡芳槐[5]在博士论文中研究了基于多数据源的中文知识图谱构建方法,涉及到本体层构建、实体层的学习等,同时构建行业领域知识图谱的应用平台;王巍巍等[6]构建了双语影视知识图谱,包括影视本体库的构建、实体的链接、实体匹配等,并搭建了应用平台与开放数据访问接口;鄂世嘉等[7]提出了一种端到端基于中文百科数据的中文知识图谱自动化构建方案,并开发面向用户的中文知识图谱系统。

现有的行业领域知识图谱通常采用手工构建方式,缺乏统一的构建方法,且这类知识库目标是特定行业领域,因此,其描述范围极为有限。针对这些问题,提出了将不同领域知识库进行融合成一个知识图谱,旨在构建语义一致、结构一致的多数据融合知识图谱,实现对不同领域内的知识进行查询和展示,从而提高了数据查询效率。

本文提出一个多数据源融合的知识图谱构建流程,并对关键技术进行研究,包括数据源的获取、领域本体库的构建、全局本体库的构建、实体对齐、实体链接以及应用平台的搭建。文中利用某地区的医院医疗保健数据、空气污染监测数据和环境监测数据,构建了多数据融合的知识图谱。

1 知识图谱构建过程

知识图谱构建是知识图谱得以应用发展的前提,涉及实体抽取和实体及实体之间关系的建立,同时还需要很好地组织和存储抽取的实体与关系信息,使其能够被迅速的访问和操作[8]。知识图谱构建过程通常可以分成两步:知识图谱本体层构建和实体层的学习[5]。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习;实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。

知识图谱的构建方法通常有自顶向下和自底向上两种[2]。所谓自顶向下的方法是指先构建知识图谱的本体,即从行业领域、百科类网站及其它等高质量的数据源中,提取本体和模式信息,添加到知识库中;而自底向上的方法是指从实体层开始,借助于一定的技术手段,对实体进行归纳组织、实体对齐和实体链接等,并提取出具有较高置信度的新模式,经人工审核后,加入到知识图谱中。然而,在实际的构建过程中,并不是两种方法孤立单独进行着,而是两种方法交替结合的过程。本文在构建多数据源的知识图谱时采用两种方法的结合,首先采用自顶向下的方式来构建本体库,然后采用自底向上的方式进行提取知识来扩展知识图谱。

图1 多数据融合的知识图谱构建过程

Fig.1 Knowledge gr

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
基于多种数据源的中文知识图谱构建方法研究 自从语义网的概念提出以来,越来越多的开放链接数据和用户生成内容被发布于互联网中,互联网逐步从仅包含网页与网页之间超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网。在此背景下,知识图谱首先由Google提出,其目标在于描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。知识图谱在实体层面对本体进行了丰富和扩充;本体中突出和强调的是概念以及概念之间的关联关系,描述了知识图谱的数据模式;而知识图谱则是在本体的基础上,增加了更加丰富的关于实体的信息。知识图谱在语义搜索、智能问答、知识工程、数据挖掘和数字图书馆等领域有着广泛的应用。本文在现有知识图谱及其本体构建研究的基础上,研究从多种数据源中构建中文知识图谱,在以下方面展开了研究工作:1.充分利用互联网中的各类结构化或半结构化的信息,包括各种开放链接数据、在线百科、行业网站等,这些数据在覆盖范围方面有较大的优势,更新速度也比较快。本文描述了从这些结构化或半结构化的数据源中抽取和学习知识的方法,利用这些数据在广度上的优势保证所构建的知识图谱的质量。2.研究如何综合使用多种数据源构建中文知识图谱,结合各种数据源的优势,包括关系数据库中数据的准确性,互联网中的开放链接数据和领域公开知识库的广度优势,行业数据的深度优势等。提出一种基于多种数据源的知识图谱构建方法,该方法综合利用不同数据源的优势,相互辅助进行知识学习;同时利用多种数据源之间的冗余数据对知识图谱的准确性进行有效地保证。3.研究如何从大规模的互联网文本中抽取知识图谱形式的知识,提出一种基于自监督机器学习的开放中文关系抽取方法,用于抽取实体(概念)之间的同义关系、上下位关系和属性关系。该方法的主要优势在于能够使用从结构化数据或半结构化数据中得到的知识以及一些通用的启发式规则,自动标注语料。对于网页中文本内容的抽取,提出了一种基于启发式规则的网页正文内容抽取算法,自动识别网页中的正文内容。4.对于行业知识图谱的构建,研究如何利用行业内部的结构化数据,设计了一种易于使用的从关系型数据到知识图谱语义数据的映射语言。同时研究如何自动地从互联网中发现行业数据,包括开放的知识库和行业网站等,提出了一种从少数行业种子关键词开始自动发现互联网中行业数据源的算法。5.研究如何提供在线协作编辑平台以有效地利用公众共享知识的积极性,以“众包”的方式编辑和完善知识图谱。构建了一个知识图谱在线编辑平台,通过对学习算法进行配置以启动自动学习过程,然后在自动学习的结果上进行知识图谱的编辑。该平台主要优势有:能够支持大规模的用户并发编辑;能够与后台的自动知识学习引擎结合。最后,使用提出的知识图谱构建算法成功构建了一个具备7,392,384实体和60,842,064事实的中文通用知识图谱;与现有的知识库和数据集进行对比表明本知识图谱具备良好的覆盖度;同时,评估结果表明该知识图谱的平均准确率在95%以上。同时,本文还构建了一个鱼类知识图谱,由于构建时利用了多个现存的最完整的数据源,因此其覆盖度非常高,包含了已知的32000余种鱼类相关知识。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值