Hbase相关模块及工作原理

最新推荐文章于 2023-01-14 10:32:49 发布

写代码的蓝胖子

最新推荐文章于 2023-01-14 10:32:49 发布

阅读量384

点赞数

分类专栏： Hadoop 文章标签： hbase工作原理 hbase模块 hbase

本文链接：https://blog.csdn.net/huangliuyu00/article/details/79704371

版权

Hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Hbase相关模块及工作原理

这里记录、表述一下关于Hbase的相关模块和工作原理，便于理解和加深印象。不对的还望指出。

工作原理

Hbase的工作原理

从集群整体上来看，Zookeeper起协调作用，维护着Master与Region Servver之间的关系。当(一个)客户端Client访问Hbase集群时，先与Zookeeper通信，到达对应的Region Server。Region是Hbase并行化的基本单元。数据存储在Region当中，每一个Region都只存储一个列族(Column Family)的数据，并且是该列族中的一段。列族下的Row按一定的记录存储在Region，达到一定的数量，就拥有多个Region。或者，应该这么说，Region所能存储的数据大小是有上限的，达到上限的时候(Threshold)，Region便分裂，数据也会分裂到多个Region中。这个有点像细胞的分裂。据说，这样子可以提高数据的并行化及数据的容量。

Region还可以往细里看，它包着多个Store对象，而每个Store包含着一个MemStore 和一个或多个HFile。MenStore是数据在内存中的实体，并且都有序的。当数据向Region写入的时候，会先写入MemStore。当MemStore中的数据需要要向底层文件系统倾倒(Dump) 时，例如MemStore中的数据体积达到配置的最大值时，Store使用创建StoreFile，而StoreFile是HFile的一层封装。也就是说MemStore中的数据最终会写到HFile中，即磁盘IO。HBase底层是依靠HDFS，所以HFile是存储在HDFS中。

solrcloud与Hbase不太一样，solrcloud全文检索服务，可以通过请Zookeeper获取其中一个active的节点请求服务，也可以直接指定solr节点请求服务，集群入口方式有2种。不过通过zookeeper方式，可以承受更大的并发量。

HLog可靠性保证

HBase的可靠性是通过HLog实现的，HLog机制是WAL(Write-Ahead Logging)的一种实现，预写日志。WAL是事务机制中常见的一致性实现方式。每个Region Server中都会有一个HLog实现，Region Server进行更新操作时，先把记录到写到WAL(也就是HLog)中，然后再写入到Store的MemStore，最终MemStore会将数据写入到持久化的HFile中，当MemStore到达配置的内存阀值时。通过先写WAL(HLog)，再写MemStore，这样的方式保证写的可靠性。
如果没有WAL，当Region Server宕掉的时候，MemStore还没写入到HFile，或者StoreFile还没保存，那么数据就会丢失。而HFile的数据由HDFS保证的，默认HDFS中会有3份。

HFile结构

HFile结构图

HFile由多个数据块(Block)组成，并且有一个固定的结尾块。其中的数据块是由一个Header和多个Key-Value的键值对能成。结尾的数据块包含了数据相关的索引信息。数据块(Block)大小默认为64KB，可调整。当数据的场景多为有序的时候，数据块的大小调大上点；当年数据的场景多为随机的时间，数据块的大小调小一点。这样子可以提高Hbase的性能。