HBase读写流程

之之遇之之

于 2022-10-25 23:58:56 发布

阅读量170

点赞数

分类专栏： HBase 文章标签： hbase 大数据

本文链接：https://blog.csdn.net/Gooooot/article/details/127524586

版权

HBase 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

HBase写流程：

从客户端创建连接开始到刷写落盘到hdfs结束。

客户端向ZK发送请求创建连接;
读取ZK存储meta表是由哪个RegionServer管理;
访问ZK返回的RegionServer上的meta表;
将读取的meta表作为属性保存作为MetaCash缓存(1-4说明这种连接是重量级的)；如果meta表发生变化需要重新读取缓存;
客户端发送put命令到RegionServer，解析RowKey，对照缓存的MetaCash，找到具体写入的位置有哪个RegionServer
RegionServer将请求写入WAL并落盘到hdfs，之后再写入到对应的MemStore并排序，由此可知，HBase也只能保证单文件是有序的；如果数据是顺序写入的，此时的写入会直接落盘(先写入到WAL因为数据会在MemStore保存一段时间并排序，期间如果发生意外会导致数据丢失是不安全的);
等待触发刷写条件后，会写入到对应的store，生成新的文件HFile(StoreFile);

MemStore Flush 刷写：

MemStore刷写由多个线程控制，条件相互独立。

（1）当某一个memstore的大小达到了hbase.hregion.memstore.flush.size(默认128M)，这个region对应的所有memstore都会进行刷写(一个region可以有多个store，每一个store都对应一个memstore)；需要注意，这种刷写模式可能会由于一个memstore达到128M而有的memstore十分小；为了避免这种情况的发生，由于每个store存储的是列簇和列，在进行表设计时，应尽可能保证列簇之间的列的数量与内容尽量均匀。

当memstore的大小达到了hbase.hregion.memstore.flush.size(默认128M)*hbase.hregion.memstore.block.multiplier(默认值是4)时，会刷写并阻止往该memstore继续写入数据，以保证数据的安全性。

（2）水位线刷写：