Hbase 读写流程，寻址流程，路由机制

最新推荐文章于 2024-12-28 17:14:20 发布

原创最新推荐文章于 2024-12-28 17:14:20 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#HBase流程分析

Hadoop 同时被 2 个专栏收录

6 篇文章

订阅专栏

HBase

2 篇文章

订阅专栏

本文详细解析了HBase的读写流程、寻址流程及路由机制。介绍了客户端如何通过ZooKeeper和元数据表定位数据，以及数据在MemStore和StoreFile中的存储与更新过程。

Hbase 读写流程，寻址流程，路由机制

#hadoop/hbase

读写过程

1.读请求

1.客户端通过zookeeper以及root表和meta表找到目标数据所在的region server
2.联系regionserver查询目标数据
4.region现在memstore总查找，则在storefile中花钱（可能会扫描到很多的storefile—
bloomfilter）

2.写请求过程

1.client向regionserver提交写请求
2，region server找到目标region
3.region检查数据是否与schema一致
4.如果客户端没有指定版本，则获取当前系统时间作为数据版本
5.将更新写入WAL Hlog
6.将更新写入Memstore
7.判断Memstore的是否需要flush为Store文件

细节描述：

hbase使用memStore 和storeFile存储对象表的更新
数据在更新时首先写入log（WAL log）和内存Memstore中。memstore中的数据是排序的，当memstore累积到一定阈值时
就会创建一个新的memstore并且将老的memstore添加到flush队列，，由单独线程flush到磁盘上，成为一个storefile。与此同时，系统会在zookeeper
中记录一个redo point，表示这个时刻之前的更新已经持久化了
当系统出现意外时，可能导致内存（memstore）中的数据丢失，此时使用log（WAL log）来恢复checkpoint之后的数据。

寻址流程

现在假设要从Table2里面插入语条RowKey 是rk10000的数据，那么我们应该遵循以下步骤：
1.从.meta. 表中查询哪个region包含这条数据
2，获取管理这个region的regionserver的地址
3.连接这个regionserver，查到这条数据

系统如何找到row key （或者某个 row key range）所在的region

bigtable 使用三层类似B+ 树的结构来保存region位置
第一层是保存zookeeper里面的文件，他持有root region 的位置
第二层是root region 是 .meta.表中第一个region 其中保存了.meta.表其他region的位置
。
通过root region，就可以访问.META.表中的数据
.META. 他是一个特殊的表，保存了hbase中所有数据的region位置信息

说明：

root region永远不会被split，保证了最多需要三次跳转，就能定位到任意region。
.meta.表表每行保存一个region的位置，rowkey采用表名+表的最后一行代码而成
为了加快非快访问 .meta.表的全部region都保存在内存中。
client会将查询过的位置信息保存起来，缓存不会主动失效。因此如果client上的缓存全部失效，则需要进行做多6次网络来回
，才能定位到正确的region（其中三次用来发现缓存失效，另外三次来获取位置信息）。