一文带你读懂基于动态知识图谱的大规模数据集成技术

编者按

数据烟囱、信息孤岛已成为政府、企业在数据应用中不可回避的问题,都在寻求各种方案打破现状,实现数据融合已成当务之急。百分点在经历多个大型数据集成项目洗礼后,已经达到了业界领先水平,通过利用动态知识谱图技术,将模型与数据进行解耦,在业务处于探索期或业务变化十分迅速的场景下,能够极大地提升数据集成的效率,解决海量数据动态集成的难题,并且能支持千万级、PB级的实时导入分析。

 

作者:倪路

在信息高速变化的时代,企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期,客户与集成方对数据、业务的认知都是不全面的,比如今天提供了人口库的数据,明天提供车辆数据、后天又提供了卡口数据……

 

在这种场景下,如果利用常规的数据集成实现手段,就要调整表结构、改写ETL任务代码、删除已经集成过的数据,并重新进行数据集成。但这在大规模数据集成的场景下,几乎是不能接受的,比如已经集成数百张表、入库10PB数据,如果要重新进行一遍集成,可能需要数以月记。这时,具备数据动态集成的能力就十分重要了。

 

因此,如何在海量数据之上将动态的数据进行关联融合,同时满足融合快速、融合无信息丢失等业务要求,并将新增的数据快速融入到当前的图谱中,不间断提供知识服务是目前的业界难题。

 

基于动态知识图谱的数据集成实现方案

 

常规的数据集成方案通常有以下痛点:

 

1.只能针对特定行业的数据进行集成,一旦存在多个行业数据交叉融合,需重新定制方案;

2.集成方案不灵活,一旦数据发生变更或有新的数据进入,就需下线业务重新集成,成本巨大。

 

对此,百分点利用动态知识谱图技术,将模型与数据进行解耦,采用灵活的元数据管理方式,即使元数据变更,已入库数据也无需重新入库。

 

百分点数据集成实现方案整体架构,包含五个部分:

 

数据源:原始数据,支持各种类型的数据,如结构化数据,RDBMS、NOSQL、MQ中的数据,也可能是各种半结构化的数据,如HTML、PDF、TEXT等各种文档或音频、视频等多媒体数据。同时,系统也支持配置URL,通过互联网爬取的网页数据。

知识管理:知识管理的核心在于对多源异构的数据建立统一的模型,并将不同的源数据映射到统一的知识模型上,最后配置知识的融合规则与冲突解决规则,以形成统一的知识体系。

 

知识存储:核心的知识库,原始数据经过离线或实时ETL处理后的转换为知识,并与库中存量数据按照模型的配置进行知识拉通、融合、冲突解决后,供上游系统消费。

 

后台管理:实现对系统的监控、告警、日志审计以及资源管理、调度管理,并对采集到的数据进行统计分析,以改善整个动态知识图谱的运作效率。

 

知识应用:

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值