hbase的读写、储存机制、合并

最新推荐文章于 2023-04-24 11:50:19 发布

い回首、相濡以沫

最新推荐文章于 2023-04-24 11:50:19 发布

阅读量326

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_43539883/article/details/102929476

版权

大数据专栏收录该内容

15 篇文章 0 订阅

订阅专栏

本文详细介绍了HBase的架构、写数据流程（包括Client如何通过ZK获取Region信息，数据写入memstore和hlog，以及在服务器宕机时的数据恢复）、读流程（包括Client如何通过Zookeeper找到RegionServer读取数据）、存储机制（数据如何从memstore到storefile，以及storefile的合并与切分）和合并机制（包括小合并与大合并的过程）。

摘要由CSDN通过智能技术生成

架构图：

在这里插入图片描述

**写数据流程：

在这里插入图片描述
Client访问ZK，根据ROOT表获取meta表所在Region的位置信息，并将该位置信息写入Client Cache。
（注：为了加快数据访问速度，我们将元数据、Region位置等信息缓存在Client Cache中）。

Client读取meta表，再根据meta表中查询得到的Namespace、表名和RowKey等相关信息，获取将要写入Region的位置信息（此过程即Region三层定位，如下图），最后client端会将meta表写入Client Cache。

Hbase使用memstore和storefile存储对表的更新，数据在更新时首先写入hlog和memstore，memstore是排序的（字典序），hlog是按照写入顺序排列的

当memstore积累到一定的阈值时，就会创建一个新的memstore，并将老的memstore加入flush队列，由单独的线程flush到磁盘上，成为一个StoreFile

当服务器宕机时memStore内存中的内容就没了，这时可以通过回放WAL日志文件（即hlog）恢复，回放的动作由hbase内部机制调用，不需要用户调用。

storefile是只读的，一旦创建之后就不可修改，当一个store的storefile达到一定的阀值后，就会进行一次合并操作，将对同一个key的修改合并到一起，同时进行版本合并和数据删除，形成一个大的storefile。当storefile的大小达到一定的阀值后，又会对storefile进行切分操作，等分为两个storefile。

Hbase中只有增添数据，所有的更新和删除操作都是在后续的合并中进行的，使得用户的写操作只要进入内存就可以立刻返回，实现了hbase的高速存储。

HFile存储在底层文件系统，hbase是hadoop数据库，所以会在分布式文件系统hdfs上，HFile对应列族，一个列族可以有多个HFile文件，一个HFile文件是一个列族中的内容。

专业一点的说：
(1) Client通过Zookeeper的调度，向RegionServer发出写数据请求，在Region中写数据。
(2) 数据被写入Region的MemStore，直到MemStore达到预设阈值。
(3) MemStore中的数据被Flush成一个StoreFile。
(4) 随着StoreFile文件的不断增多，当其数量增长到一定阈值后，触发Compact合并操作，将多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除。
(5) StoreFiles通过不断的Compact合并操作，逐步形成越来越大的StoreFile。
(6) 单个StoreFile大小超过一定阈值后，触发Split操作，把当前Region Split成2个新的Region。父Region会下线，新Split出的2个子Region会被HMaster分配到相应的RegionServer上，使得原先1个Region的压力得以分流到2个Region上。

读流程：

在这里插入图片描述
(1) Client访问Zookeeper，查找-ROOT-表，获取.META.表信息。
(2) 从.META.表查找，获取存放目标数据的Region信息，从而找到对应的RegionServer。
(3) 通过RegionServer获取需要查找的数据。
(4) Regionserver的内存分为MemStore和BlockCache两部分，MemStore主要用于写数据，BlockCache主要用于读数据。读请求先到MemStore中查数据，查不到就到BlockCache中查，再查不到就会到StoreFile上读，并把读的结果放入BlockCache。

hbase的存储机制：

每一次的插入操作都会先进入MemStore（内存缓冲区），
当 MemStore达到上限的时候，Hbase会将内存中的数据输出为有序的StoreFile文件数据（根据Rowkey、版本、列名排序，这里已经和列簇无关了因为Store里都属于同一个列簇）。
这样会在Store中形成很多个小的HFile，当这些小的HFile数量达到一个阀值的时候，Hbase会用一个线程来把这些小HFile合并成一个大的HFile。这样，Hbase就把效率低下的文件中的插入、移动操作转变成了单纯的文件输出、合并操作。

由上可知，在Hbase底层的Store数据结构中，

1） 每个HFile内的数据是有序的，
2） 但是HFile之间不一定是有序的，
3） Store只 需要管理StoreFile的索引就可以了。

这里也可以看出为什么指定版本和Rowkey可以加强查询的效率，因为指定版本和Rowkey的查询可以利用 StoreFile的索引跳过一些肯定不包含目标数据的数据。

合并：

hbase合并：
删除一条记录，就会在该记录上打上标记，被打上标记的记录就成了墓碑记录，该记录使用get和scan查询不到，会被过滤掉，但还是在HFile中。只有进行大合并的时候才会删除HFile中的墓碑记录。大合并：指定region的一个列族的所有HFile.合并完成后，这个列族的所有HFile文件合并成一个HFile文件，可以在shell中手动触发，但该动作相当耗资源。小合并是将多个小的HFile文件内容读取出来合并生成一个大的HFile,把新文件设置成激活状态，然后删除小的HFile

い回首、相濡以沫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hbase的读写、储存机制、合并

(1) Client通过Zookeeper的调度，向RegionServer发出写数据请求，在Region中写数据。(2) 数据被写入Region的MemStore，直到MemStore达到预设阈值。(3) MemStore中的数据被Flush成一个StoreFile。(4) 随着StoreFile文件的不断增多，当其数量增长到一定阈值后，触发Compact合并操作，将多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除。(5) StoreFiles通过不断的Compact
复制链接

扫一扫

专栏目录