HBase在京东人资数据预处理平台中的实践

最新推荐文章于 2023-02-28 15:55:07 发布

qianshanding0708

最新推荐文章于 2023-02-28 15:55:07 发布

阅读量182

点赞数

文章标签：数据库 java 分布式 hbase redis

背景

人资绩效系统数据预处理平台，负责接收所有上游业务量数据。具有数据量大、非结构化数据、更新单个业务量数据，查询性能要求高等特性。通常技术上可以选择OSS、MySql数据库、ES等存储方案。其中OSS云存储方案，查询性能与更新单个业务量数据上无法满足。MySql数据库如果每对接一种业务量创建一个表的方式，对于更新查询等方面复杂度较高，不利于系统扩展。而ES存储量与查询量都可以满足，但更新单个字段不够友好，且ES成本较高。

现状

技术选型时，充分考虑到人资数据预处理平台的特性，数据量大，数据非结构化，高性能、开源稳定等要求，选型HBase。

HBase是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库，它在Hadoop之上提供了类似于Bigtable的能力，同时又是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，同时HBase技术可在廉价PC Server上搭建起大规模结构化存储集群，性价非常高。

HBase适用场景

对象存储：不少的头条类、新闻类的的新闻、网页、图片存储在HBase之中，一些病毒公司的病毒库也是存储在HBase之中。

时序数据：HBase之上有OpenTSDB模块，可以满足时序类场景的需求。

推荐画像：特别是用户的画像，是一个比较大的稀疏矩阵，蚂蚁的风控就是构建在HBase之上。

时空数据：主要是轨迹、气象网格之类，滴滴打车的轨迹数据主要存在HBase之中，另外在技术所有大一点的数据量的车联网企业，数据都是存在HBase之中。

消息/订单：在电信领域、银行领域，不少的订单查询底层的存储，另外不少通信、消息同步的应用构建在HBase之上。

Feeds流 ：典型的应用就是xx朋友圈类似的应用。

HBase基础概念

命名空间：类比MySql中数据库库名。

表名：类比MySql中表名。

列族：一组列的集合为列族。列族下的列可以N个。

列名称：存在列族下的单个列，列族下的名称。

RowKey：Hbase存储采用 key-value方式，RowKey就是Key，所有的修改，查询等操作都只能基于RowKey，必须唯一。

HBase整体架构

HBase由三种类型的服务器以主从模式构成

Region Server：负责数据的读写服务，用户通过与Region server交互来实现对数据的访问。每个Region服务器中包含最多1000个Region，每个Region里面包含了StartKey到EndKey的一个区间数据。
HBase HMaster：分组分配Region和操作DDL,在集群处于数据恢复或者动态调整时，监控所有Region Server的状态。
ZooKeeper：负责维护集群的状态（某台服务器是否在线，服务器之间数据的同步操作及Hmaster的选举等）。

集群与协同工作

Region Server，会通过心跳方式与Zookeeper保持连接，并创建一个临时节点，当无法监听到心跳时，会通知Zookeeper，同时删除临时节点，而HMaser会通过zookeeper得到Region Server服务器的状态，当服务器下线时，会进行数据恢复，容灾等操作。HMaster同样会同Zookeeper保持心跳，用于监控HMaster状态，当HMaster下线时，会通过选举方式，将HMaster集群中的一台机器设置成Active，其他机器设置成InActive状态，来保证整个集群的高可用性。