[HBase] 体系架构（物理模型）

最新推荐文章于 2023-07-21 08:35:16 发布

Zhu_Julian

最新推荐文章于 2023-07-21 08:35:16 发布

阅读量5.3k

点赞数 3

分类专栏： Architecture NOSQL 文章标签： HBase 架构物理模型 Hadoop 数据库架构

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dbanote/article/details/8902746

版权

NOSQL 同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

Client

--包含访问HBase的接口并维护cache，加快对HBase的访问

Zookeeper

–保证任何时候，集群中只有一个master

–存贮所有Region的寻址入口。

–实时监控Region server的上线和下线信息。并实时通知给Master

–存储HBase的schema和table元数据

Master

–为Region server分配region

–负责Region server的负载均衡

–发现失效的Region server并重新分配其上的region

–管理用户对table的增删改查操作

RegionServer

–Region server维护region，处理对这些region的IO请求

–Region server负责split在运行过程中变得过大的region

ZooKeeper存储所有Region的入口，Client通过访问它获得-ROOT-表的的location信息，接着通过-ROOT-表获得.META.表Region信息，最后再通过.META.表获得用户表的Region信息。Client会缓存这些信息，这样下次就可以直接获得用户表的Region信息。

如上图所示，当Client连上HReigonServer后，后者会打开相应的HRegion对象，为每个HColumeFamily创建Store实例，每个Store实例有一个MemStore，一个或多个StoreFile，StoreFile是HFile轻量级的包装。

1 写数据过程

首先是把Log写入到HLog中，HLog是标准的Hadoop Sequence File，由于Log数据量小，而且是顺序写，速度非常快；同时把数据写入到内存MemStore中，成功后返回给Client，所以对Client来说，HBase写的速度非常快，因为数据只要写入到内存中，就算成功了。

接着检查MemStore是否已满，如果满了，就把内存中的MemStore Flush到磁盘上，形成一个新的StoreFile。

当Storefile文件的数量增长到一定阈值后，系统会进行合并（Compact），在合并过程中会进行版本合并和删除工作，形成更大的storefile。

当Storefile大小超过一定阈值后，会把当前的Region分割为两个（Split），并由Hmaster分配到相应的HRegionServer，实现负载均衡

2 读数据过程

由于无法直接修改HBase里的数据，所有的update和delete操作都转换成append操作，而且HBase里也没有索引，因此读数据都是以Scan的方式进行。

Client在读数据时，一般会指定timestamp和ColumnFamily.

首先，根据ColumnFamily可以过滤掉很大一部分Store，这也是HBase作为列式数据库的一大优势。

然后，根据timestamp和Bloom Filter排除掉一些StoreFiles

最后，在剩下的StoreFile （包含MemStore）里Scan查找

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
[HBase] 体系架构（物理模型）

Client--包含访问HBase的接口并维护cache，加快对HBase的访问Zookeeper–保证任何时候，集群中只有一个master–存贮所有Region的寻址入口。–实时监控Region server的上线和下线信息。并实时通知给Master–存储HBase的schema和table元数据Master–为Region serve
复制链接

扫一扫

专栏目录

Zhu_Julian CSDN认证博客专家 CSDN认证企业博客

码龄11年

199: 原创

9万+: 周排名

98万+: 总排名

112万+: 访问

: 等级

1万+: 积分

392: 粉丝

375: 获赞

144: 评论

238: 收藏

私信

关注

热门文章

分类专栏

深入Oracle 89篇
Python网络程序开发 10篇
Linux运维之道 31篇
MySQL进阶指南 38篇
Django实战 9篇
OpenStack菜鸟进阶指南 4篇
Oracle 94篇
MySQL 40篇
NOSQL 17篇
Architecture 9篇
MyLife
IT Industry 4篇
Python 12篇
Performance Tuning 6篇
Cloud 3篇
IT Men 1篇
Linux 33篇
Django 9篇
Nginx 1篇
Network 2篇

最新评论

[Oracle] expdp ORA-39006, ORA-39065 的解决办法
soul丶mate: 无法打开文件 "$ORACLE_HOME/rdbms/admin/catmeta.sql" 是什么情况
[Oracle] SQL*Loader 详细使用教程（5）- 典型例子
m0_67452671: filler的字段默认值大概为200，那如果报超长应该怎么书写呢？
[MySQL] 浅谈InnoDB存储引擎
蒼離杏樹: 就硬抄呗
[Oracle, MySQL] Oracle通过dblink连接MySQL
lllllllllllill: 我tnsping 服务实例和 lsnrctl status 查看监听状态都没有问题，但是最后创建完dblink，查看的时候就报以下错误 ORA-28546: 连接初始化失败, 可能是 Net8 管理错误 ORA-28511: 丢失与使用 SID=(DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=localhost)(PORT=1521))(CONNECT_DATA=(SERVER=DEDICATED)(SID=flow))) 的多机种远程代理程序的 RPC 连接 ORA-02063: 紧接着 2 lines (起自 MYLINK) 楼主，请问这是怎么回事呢？
[Django实战] 第2篇 - 关于MTV模式
Tisfy: 总结得十分精辟，就像那：不经一番寒彻骨，怎得梅花扑鼻香。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。