知识图谱平台架构

该博客详细介绍了知识图谱平台的架构,包括数据采集、预处理、存储、计算和管理服务等方面。使用数据/消息中间件结合Spark Streaming进行数据处理,Hbase存储源数据,Janusgraph作为图数据库。在线检索服务采用phoenix访问Hbase,字典库使用Mysql。数据分析仓库根据数据量选择Hbase或Hive,并利用Spark SQL、Hive、Impala进行分析,结果存储在Hbase和Janusgraph中。此外,Azkaban用于任务调度。
摘要由CSDN通过智能技术生成

 

  1. 使用数据/消息中间件+Spark Streaming批量接收处理;
  2. hbase存储源数据;
  3. 关系数据存入图数据库Janusgraph。
    1. 在线检索服务

用phoenix作为Hbase的数据访问中间件,不仅支持SQL标准访问Hbase数据,还支持二级索引,满足复杂的检索服务。

    1. 字典库

字典库数据量较小,使用关系型数据库Mysql。

    1. 数据分析仓库

有效数据仓库作为数据分析仓库,从数据分析角度考虑,有两种存储方案

  1. 存入Hbase,使用Hive建立外部关联表,与Hbase的表建立映射关系。优点是:因为是映射关系,Hbase写入的数据与Hive实时同步。缺点是:在数据量比较小的时候,比如只有10几个G以下时,第一种效率比较高,因为没有转换的时间,当数据量超过10几个G后,且后续需要很密集的查询,当然要选第二种转换方式,一次转换,终生无忧!!
  2. 直接存入Hive中。缺点:Hive不支持数据更新,源数据更新时,需要重新导入。

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值