文章目录
一、HBase介绍
- 定义:HBase是一个面向列存储的数据库,它是一个分布式的hash map,并能够利用HDFS的可靠性来做存储功能。
- 特点
- 数据访问速度快,响应时间月约2-20ms
- 支持随机读写,每个节点20k~100k+ops/s
- 可扩展性,可扩展到20000+节点
- 应用场景
- 增量数据-时间序列数据——高容量、高速写入
- 信息交换-消息传递——高容量、高速读写
- 内容服务-Web后端应用程序——高容量、高速读写、
- 高并发
二、HBase架构
HBase是一种Master/slaves架构,主要的组成由下图可以看出,分别为:Client、zookeeper、HMaster、HRegionServer、HDFS。
1.主架构
(1).Client
Client(客户端)可以是HBase shell,Java API或者是RestAPI。Client 就是用来访问 HBase 数据库的,它不仅提供了访问接口,还维护了对应的缓存(cache)来加速 HBase 的访问。Client 端的缓存主要是缓存 Region 的位置信息,减少获取元数据的时间。
当 Client 端没有缓存的时候(第一次请求),会加载 Region 的位置信息到Client 端,后面直接使用 cache 中的信息,如果出现重试,则会重新获取 Region 的位置信息,更新 Client 端的 cache。
(2).Zookeeper
HBase 通过 ZooKeeper 来做 HMaster 的高可用、HRegionServer 的监控、元数据的入口以及集群配置的维护等工作。它具体工作如下:
- 通过Zookeeper来保证集群中只有一个HMaster在运行,如果HMaster异常,会通过选举机制产生新的HMaster来提供服务
- 通过Zookeeper来监控HRegionServer的状态,当HRegionServer有异常,通过Master会受到Zookeeper消息通知HRegionServer上下线的信息
- 通过ZooKeeper存储元数据的统一入口地址
(3).HMaster
H