HBase 原理

1. HBase 底层原理

1.1 系统架构

1.1.1 Client 职责

1. HBase 有两张特殊的表:

.META.: 记录了用户所有表拆分出来的 Region 映射信息,.META. 可以有多个 Region

-ROOT-(新版中已去掉这一层): 记录了 .META. 表的 Region 信息,-ROOT- 只有一个 Region,无论如何都不会分裂

2. Client 访问用户数据前需要首先访问 ZooKeeper,找到 -ROOT- 表的 Region 所在的服务器位置,然后访问 -ROOT- 表,接着访问 .META. 表,最后才能找到用户数据的服务器位置,并访问。在这期间会有多次网络操作,不过 Client 端会做 cache 缓存。

 

1.1.2 ZooKeeper 职责

  1. ZooKeeper 为 HBase 提供了 Failover 机制,选举 Master,避免 Master 单点故障的问题
  2. 存储所有 Region 的寻址入口:-ROOT- 表在哪台服务器上,-ROOT- 这张表的位置信息
  3. 实时监控 RegionServer 的状态,将 RegionServer 的上线和下线信息实时通知给 Master
  4. 存储 HBase 的 Schema,包括有哪些 Table,每个 Table 有哪些 Column Family

1.1.3 Master 职责

  1. 为 RegionServer 分配 Region
  2. 负责 RegionServer 的负载均衡
  3. 发现失效的 RegionServer 并重新分配其上的 Region
  4. HDFS 上的垃圾文件(HBase)回收
  5. 处理 Schema 更新的请求(表的创建、删除、修改、列簇的增加等)

1.1.4 RegionServer 职责

  1. 维护 Master 分配给的 Region,处理对这些 Region 的 IO 请求
  2. 负责和底层文件系统 HDFS 的交互,存储数据到 HDFS
  3. 负责 Store 中的 HFile 的合并工作
  4. 负责 Split 在运行过程中变得过大的 Region,负责 Compact 操作

可以看出,Client 访问 HBase 上数据的过程并不需要 Mster 的参与(寻址访问 ZooKeeper 和 RegionServer,数据读写访问 RegionServer),Master 仅仅维护着 Table 和 Region 的元数据信息,负载较低。

.META. 存储的是所有的 Region 的位置信息,那么 RegionServer 当中的 Region 在进行分裂之后新产生的 Region 是由 Master 来决定存储到哪个 RegionServer,这就意味着,只有 Master 知道 new Region 的位置信息,所以,由 Master 来管理 .META. 这个表当中数据 CRUD(Create, Read, Update, Delete)。

所以,结合以上两点:在没有 Region 分裂的情况下,Master 宕机一段时间是可以忍受的。

 

1.2 物理存储

1.2.1 整体物理结构

  1. Table 中的所有行都按照 RowKey 的字典顺序进行排列
  2. Table 在行的方向上分割为多个 HRegion
  3. HRegion 是按大小分割的(默认为 10G),每个表一开始只有一个 HRegion,随着表中的数据不断增加,HRegion 不断增大,当增大到一个阈值的时候,HRegion 就会等分为两个新的 HRegion,当表中的行不断增多,就会有越来越多的 HRegion
  4. HRegion 是 HBase 中分布式存储和负载均衡的最小单元。最小单元就表示不同的 HRegion 可以分布在不同的 HRegionServer 上。但是一个 HRegion 是不会拆分到多个 Server 上的
  5. HRegion 虽然是负载均衡的最小单元,但并不是物理存储的最小单元。事实上,HRegion 是由一个或多个 Store 组成,每个 Store 保存一个 Column Family。每个 Store 又由一个 MemStore 和 0 到多个 StoreFile 组成

 

1.2.2 StoreFile 和 HFile 结构

StoreFile 以 HFile 格式保存在 HDFS 上,如下图所示:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值