本系列文章的整体行文思路如下:
-
介绍HBase数据模型
-
基于数据模型介绍HBase的适用场景
-
快速介绍集群关键角色以及集群部署建议
-
示例数据介绍
-
写数据流程
-
读数据流程
-
数据更新
-
负载均衡机制
-
HBase如何存储小文件数据
这些内容将会被拆成几篇文章。至于集群服务故障的处理机制,集群工具,周边生态,性能调优以及最佳实践等进阶内容,暂不放在本系列文章范畴内。
约定
–
-
本文范围内针对一些关键特性/流程,使用了加粗以及加下划线的方式做了强调,如”ProcedureV2“。这些特性往往在本文中仅仅被粗浅提及,后续计划以独立的文章来介绍这些特性/流程。
-
术语缩写:对于一些进程/角色名称,在本文范围内可能通过缩写形式来表述:
数据模型
RowKey
用来表示唯一一行记录的主键,HBase的数据是按照RowKey的字典顺序进行全局排序的,所有的查询都只能依赖于这一个排序维度。
通过下面一个例子来说明一下”字典排序“的原理:
RowKey {“abc”, “a”, “bdf”, “cdf”, “defg”}按字典排序后的结果为{“a”, “abc”, “bdf”, “cdf”, “defg”}
也就是说,当两个RowKey进行排序时,先对比两个RowKey的第一个字节,如果相同,则对比第二个字节,依此类推…如果在对比到第M个字节时,已经超出了其中一个RowKey的字节长度,那么,短的RowKey要被排在另外一个RowKey的前面
稀疏矩阵
参考了Bigtable,HBase中一个表的数据是按照稀疏矩阵的方式组织的,”开篇”部分给出了一张关于HBase数据表的_抽象图_,我们再结合下表来加深大家关于”稀疏矩阵”的印象:
看的出来:每一行中,列的组成都是灵活的,行与行之间并不需要遵循相同的列定义, 也就是HBase数据表”schema-less“的特点。
Region
区别于Cassandra/DynamoDB的”Hash分区”设计,HBase中采用了”Range分区”,将Key的完整区间切割成一个个的”Key Range” ,每一个”Key Range”称之为一个Region。
也可以这么理解:将HBase中拥有数亿行的一个大表,横