垂直领域知识图谱构建及应用平台的设计与实现

摘要

【目的】 知识图谱可以将客观世界的实体、概念、关系等抽象成图数据结构,是垂直领域建模和应用的研究热点,本文研发和实现了从资源调度、知识图谱构建到应用场景全过程的自动化和一体化平台。【方法】 以微服务架构的方式部署了数据处理、算法仓库及知识图谱公共组件,采用了低耦合、高内聚和多层次的架构以提升平台处理知识抽取、存储与应用等不同任务时多模块间的协作能力,将计算资源虚拟化以提升初始化、生产与日常维护等平台的不同使用阶段的资源调度能力。【结果】 建成和部署了垂直领域知识图谱构建及应用平台,提供了数据处理、自动化知识抽取、图计算及扩展、图表示学习及应用等功能。以金融领域产业链知识图谱的构建及表示学习应用的过程为例,验证了平台的可用性。【结论】 该平台实现了垂直领域知识图谱从构建、图表示学习到领域应用的全流程覆盖,有效地降低了用户的使用难度,提高了资源的利用效率,也可以扩展到其它垂直领域。

关键词: 知识图谱; 资源虚拟化; 图表示学习; 微服务技术

引言

知识图谱是描述实体及其关系的一种语义网络,主要有三种数据元素组成:实体、关系和标签,这些数据通常存储在图数据库中,并且能够可视化为图形结构[1-2]。近年来在推荐算法[3]、反欺诈[4-5]、大数据治理&分析[6-7]、基于知识库问答(Knowledge Base Question Answering, KBQA[8-9]等方面得到了广泛的应用。在垂直行业的研究应用中,知识图谱不仅可以将埋藏于文本中的实体知识以网络的方式关联起来,后续还可以利用图表示学习技术将图谱映射到向量化的嵌入空间。向量化之后可以进一步为下游应用任务提供支撑,例如对实体属性和图结构中隐藏的额外信息的挖掘或者与其他知识图谱融合等[10]

垂直行业的知识图谱在构建及图表示学习应用时会遇到存储、计算、内存、部署环境、运行维护等多方面复杂的需求,具体包括四方面问题:

1)数据来源多且结构复杂。知识图谱需要的数据来源通常包括结构化的表格数据和非结构化的文本数据等,在处理过程中会有关系型、非关系型数据库、文件服务器和图数据库等多源异构的数据存储需求,需要一套针对异构多源数据的处理方案以及灵活可配置的微服务设计来提升数据的治理质量,有效支撑下游任务。

2)需要很高的计算资源。垂直领域知识图谱构建过程中,会遇到从行业的文本数据中抽取出实体、关系等内容的知识抽取任务,而目前主流的知识抽取方法是基于自然语言处理(Natural Language Processing, NLP)技术的实体识别与关系抽取,这些技术需要的计算资源与内存资源非常多[11],这对如何理解模型训练、知识抽取、图表示学习、应用分析等多场景对资源需求的差异化,并实现资源的合理分配提出了挑战。

3)涉及算法多样且运行环境复杂。知识图谱在应用过程中,通常会用图表示学习的方法把实体映射为低维向量方便后续任务分析,图表示学习过程会遇到大量的模型训练需求,不仅需要消耗很高的计算与内存资源,而且不同版本的图表示学习算法包在应用时也会有运行环境适配与维护的需求[12],使用门槛非常高,因此亟需一套与底层硬件资源分离的方案来实现算法的统一管理,以提升部署速度和可移植性。

4)资源需要动态调度。在垂直领域,知识图谱从数据处理、图谱构建到后续图表示学习和应用任务的过程中会遇到资源需求经常变化的问题。知识图谱的全量生产和图表示学习模型的从头训练过程是需要大量计算资源的,它们都是初始阶段需要进行的全量任务而非日常化任务。而在完成知识图谱构建和图表示学习的全量生产任务后,日常进行下游分析应用时,对计算资源和内存资源的需求会减少,这时资源需要合理的释放和回收,这需要基于虚拟化技术设计灵活的资源调度方式与高效的管理系统。

为了解决垂直领域知识图谱构建及应用过程中存在的数据多源异构、需要大量计算资源、算法复杂且用户使用门槛高、计算资源需要动态管理等问题,本文构建了一个面向虚拟化资源的知识图谱构建及应用平台,采用了基于微服务的架构体系,应用了资源虚拟化、容器化、资源调度与管理、作业状态监控等技术。

平台的架构设计与核心技术密切结合知识图谱构建及应用的使用场景,本文的创新点如下:

1)以微服务架构的方式部署了数据处理、算法仓库及知识图谱公共组件,在面向多源异构的复杂数据情况时,采用了低耦合、高内聚和多层次的架构以提升平台处理知识抽取、存储与应用等不同任务过程中多模块间的协作能力。

2)平台通过容器化部署技术有效地降低了用户构建知识图谱及进行下游相关应用的难度,提升了可扩展性和可移植性。

3)平台将计算资源虚拟化以实现动态聚集与释放,满足平台在初始化、生产与日常维护等不同使用情况下差异化的资源使用需求,提高了资源的利用效率,并且可以扩展多个垂直领域应用。

本文结构如下:第1节讨论了垂直领域知识图谱构建、表示学习应用以及平台构建方面相关的技术;第2节讨论了平台的整体架构;第3节讨论了平台中的资源虚拟化和调度管理技术;第4节讨论了平台从数据获取、存储、清洗到解析的数据处理流程;第5节以金融行业为例讨论了平台的开发部署情况与行业应用的结果;最后第6节是对本文平台构建工作的总结以及对之后工作计划的讨论。

1 相关技术

在本节中,我们主要讨论了垂直领域知识图谱构建、图表示学习和资源虚拟化及调度的相关技术,以及讨论了平台建设要解决的问题。

1.1 知识图谱构建相关技术

垂直领域知识图谱一般是以解决该领域内的某一类问题而构建,比如流行音乐领域的知识图谱构建、中医药领域的知识图谱构建等,垂直领域的知识图谱通常由几十到上百万量级的实体数量,百万到千万量级的关系数量,需要专门的图数据库来存储,而且需要比较大的存储容量[13-14]

面向垂直领域的知识图谱的构建一般先需要整理该领域内大量的相关文本资料,然后利用知识抽取技术抽取出以三元组为代表的知识,最后经过实体消歧、知识融合等技术建成知识图谱。其中知识抽取包含的命名实体识别和关系抽取两种主要方法[15],都需要依靠大量标注数据的统计学习,基于预训练模型等深度学习技术[16],从自然语言文本中自动抽取出具有语义关系的实体[17]。因此本平台将垂直领域知识抽取与图谱存储技术部署成微服务的形式,方便在不同使用场景下的灵活调用与相互协作。深度学习模型在面对大量的标注文本数据时,其训练和应用过程中需要大量的存储、内存与计算资源,并且需要比较复杂的部署调试工作,用户学习和使用成本都很高[18],这也是本文研究的动机之一。本文将图谱构建相关的多源数据处理、知识抽取、知识融合等模块以微服务形式部署来提升协作能力,并利用容器技术提升快速部署能力和可扩展性。

  • 8
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗思付之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值