- 使用数据/消息中间件+Spark Streaming批量接收处理;
- hbase存储源数据;
- 关系数据存入图数据库Janusgraph。
- 在线检索服务
用phoenix作为Hbase的数据访问中间件,不仅支持SQL标准访问Hbase数据,还支持二级索引,满足复杂的检索服务。
-
- 字典库
字典库数据量较小,使用关系型数据库Mysql。
-
- 数据分析仓库
有效数据仓库作为数据分析仓库,从数据分析角度考虑,有两种存储方案
- 存入Hbase,使用Hive建立外部关联表,与Hbase的表建立映射关系。优点是:因为是映射关系,Hbase写入的数据与Hive实时同步。缺点是:在数据量比较小的时候,比如只有10几个G以下时,第一种效率比较高,因为没有转换的时间,当数据量超过10几个G后,且后续需要很密集的查询,当然要选第二种转换方式,一次转换,终生无忧!!
- 直接存入Hive中。缺点:Hive不支持数据更新,源数据更新时,需要重新导入。