HBase原理 | HBase读写流程和MemStore Flush(图形化通俗易懂)

最新推荐文章于 2024-08-02 17:52:34 发布

lovelife110

最新推荐文章于 2024-08-02 17:52:34 发布

阅读量359

点赞数

分类专栏：大数据文章标签： hbase big data hadoop

本文链接：https://blog.csdn.net/qq_33873431/article/details/125086405

版权

大数据专栏收录该内容

11 篇文章 2 订阅

订阅专栏

文章目录

组件模块说明

HBase：以下内容为V1.3版本

Zookeeper：HBase 通过 Zookeeper 来做 Master 的高可用、 RegionServer 的监控、存储Hbase元数据(如哪个表存储在哪个RegionServer上)以及集群配置的维护等工作。

meta表：HBase有两个自带的命名空间，分别是 hbase 和 default， hbase 中存放的是 HBase 内置的表，default 表是用户默认使用的命名空间。meta表位于hbase命名空间(还有namespace表)下。记录了用户所有表拆分出来的的 Region 映射信息。meta表结构(画成关系型的好理解)如下：

在这里插入图片描述
StoreFile：每一个region由一个或多个store组成，至少是一个store，hbase为每个列族建一个store，如果有几个列族，也就有几个Store。

HFile：HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件。StoreFile底层是以HFile的格式保存。

MemStore：写缓存，由于 HFile 中的数据要求是有序的，所以数据是先存储在 MemStore 中，排好序后，等到达刷写时机才会刷写到 HFile，每次刷写都会形成一个新的 HFile。

WAL：用来做灾难恢复使用，HLog记录数据的所有变更，一旦region server 宕机，就可以从log中进行恢复。由于数据要经 MemStore 排序后才能刷写到 HFile，但把数据保存在内存中会有很高的概率导致数据丢失，为了解决这个问题，数据会先写在一个叫做 Write-Ahead logfile 的文件中，然后再写入 MemStore 中。所以在系统出现故障的时候，数据可以通过这个日志文件重建。

HBase写流程

在这里插入图片描述

Client 先访问 zookeeper，获取 hbase:meta 表位于哪个 Region Server(图中位于hadoop102这台)。
知道meta 表位于哪个Region Server后，访问对应的 Region Server(hadoop102)，获取 hbase:meta 表，根据读请求的 namespace:table/rowkey，查询出目标数据位于哪个 Region Server 中的哪个 Region 中(映射信息记录在meta表，图中为hadoop103)。并将该 table 的 region 信息以及 meta 表的位置信息缓存在客户端的 meta cache，方便下次访问。
与目标 Region Server (图中为hadoop103)进行通讯；
将数据顺序写入（追加）到 WAL；
将数据写入对应的 MemStore，数据会在 MemStore 进行排序；
向客户端发送 ack；
等达到 MemStore 的刷写时机后，将数据刷写到 HFile。

HBase读流程

在这里插入图片描述

Client 先访问 zookeeper，获取 hbase:meta 表位于哪个 Region Server。
访问对应的 Region Server，获取 hbase:meta 表，根据读请求的 namespace:table/rowkey，查询出目标数据位于哪个 Region Server 中的哪个 Region 中。并将该 table 的 region 信息以及 meta 表的位置信息缓存在客户端的 meta cache，方便下次访问。
与目标 Region Server 进行通讯；
分别在 Block Cache（读缓存，缓存实际数据）， MemStore 和 Store File（HFile）中查询目标数据，并将查到的所有数据进行合并（这里要注意，是查所有数据，而不是读缓存，有就返回，因为HBase有时间戳这个东西）。此处所有数据是指同一条数据的不同版本（time stamp）或者不同的类型（Put/Delete）。
将从文件中查询到的数据块（Block， HFile 数据存储单元，默认大小为 64KB）缓存到Block Cache。
将合并后的最终结果返回给客户端。

MemStore Flush

在这里插入图片描述
MemStore 刷写时机，图中同个Region下2个store代表不同的列族，刷写到HDFS对应不同文件夹：

当某个 memstroe 的大小达到了hbase.hregion.memstore.flush.size（默认值 128M），其所在 region 的所有 memstore 都会刷写。当 memstore 的大小达到了hbase.hregion.memstore.flush.size（默认值 128M）* hbase.hregion.memstore.block.multiplier（默认值 4）时（即默认128M*4），会阻止继续往该 memstore 写数据。
当 region server 中 memstore 的总大小达到java_heapsize(java堆内存)的40%（hbase.regionserver.global.memstore.size，默认0.4）以及hbase.regionserver.global.memstore.size的95%（hbase.regionserver.global.memstore.size.lower.limit，默认值 0.95）后（默认即java_heapsize*0.4*0.95），region 会按照其所有 memstore 的大小顺序（由大到小）依次进行刷写。直到 region server中所有 memstore 的总大小减小到上述值以下。
当 region server 中 memstore 的总大小达到java_heapsize * 0.4 （hbase.regionserver.global.memstore.size，默认值0.4）时，会阻止继续往所有的 memstore 写数据。
到达自动刷写的时间，也会触发 memstore flush。自动刷新的时间间隔由该属性进行配置hbase.regionserver.optionalcacheflushinterval（默认 1 小时）。
当 WAL 文件的数量超过 hbase.regionserver.max.logs， region 会按照时间顺序依次进行刷写，直到 WAL 文件数量减小到 hbase.regionserver.max.log 以下（该属性名已经废弃，现无需手动设置，最大值为 32）。

lovelife110

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
HBase原理 | HBase读写流程和MemStore Flush(图形化通俗易懂)

HBase：以下内容为V1.3版本Zookeeper：HBase 通过 Zookeeper 来做 Master 的高可用、 RegionServer 的监控、存储Hbase元数据(如哪个表存储在哪个RegionServer上)以及集群配置的维护等工作。meta表：HBase有两个自带的命名空间，分别是 hbase 和 default， hbase 中存放的是 HBase 内置的表，default 表是用户默认使用的命名空间。meta表位于hbase命名空间(还有namespace表)下。记录了用户所有表拆分
复制链接

扫一扫