Hbase分布式实时数据库

了解Hbase分布式实时数据库

Hbase是构建在HDFS之上的分布式列存储数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可以在廉价PC Server上搭建起大规模结构化存储集群。Hbase的列式存储结构允许用户存储海量的数据到相同的表中,而在传统数据库中,海量数据需要被切分成多个表进行存储。

行键(Row Key)

Rowkey既是Hbase表的行键,也是Hbase表的主键。Hbase表中的记录是按照Rowkey的字典顺序进行存储的。
在Hbase中,为了高效地检索数据,需要设计良好的Rowkey来提高查询性能。首先Rowkey被冗余存储,所以长度不宜过长,Rowkey过长将会占用大量的存储空间同时会降低检索效率;其次Rowkey应该尽量均匀分布,避免产生热点问题;另外需要保证Rowkey的唯一性。

列簇(ColumnFamily)

Hbase表中的每个列都归属于某个列簇,一个列簇中的所有列成员有着相同的前缀。列簇是表的schema的一部分,必须在使用表之前定义列簇,但列却不是必须的,写数据的时候可以动态加入。一般将经常一起查询的列放在一个列簇中,合理划分列簇将减少查询时加载到缓存的数据,提高查询效率,但也不能有太多的列簇,因为跨列簇访问是非常低效的。

单元格

Hbase中通过Row和Column 确定的一个存储单元称为单元格(cell)。每个单元格都保存着同一份数据的多个版本,不同时间版本的数据按照时间顺序倒序排序,最新时间的数据排在最前面。
为了避免数据存在过多版本造成的管理(包括存储和索引)负担,Hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本;二是保存最近一段时间内的数据版本,比如最近七天。用户可以针对每个列簇进行设置。

物理模型

每个column family存储在HDFS上的一个单独的文件里,Rowkey和version 在每个column family里均有一份。空值不保存,占位符都没有。
在这里插入图片描述
在这里插入图片描述
Table中的所有行都按照row key的字典序排列,Table在行的方向上分隔为多个Region。
在这里插入图片描述
Table默认最初只有一个Region,随着记录数不断增加而变大后 ,会逐渐分裂成多个region,一个region由[startKey,endKey]表示,不同的region会被Master分配给相应的RegionServer进行管理。
在这里插入图片描述
region是Hbase中分布式存储和负载均衡的最小单位。不同Region 分布到不同RegionServer上。
在这里插入图片描述
region虽然是分布式存储的最小单元,但并不是存储的最小单元。region由一个或者多个Store组成,每个store保存一个column family。
每个Store又由一个memStore和0至多个StoreFile组成。memStore存储在内存中,StoreFile存储在HDFS上。
在这里插入图片描述

Hbase系统架构

在这里插入图片描述
Hbase采用Master/Slave架构搭建集群,由HMaster节点、HRegionServer节点、ZooKeeper集群组成,而在底层它将数据存储在HDFS中,因而涉及到HDFS的NameNode、DataNode等,每个DataNode上面最好启动一个HRegionServer,这样在一定程度上保持数据的本地性。
在这里插入图片描述

Zookeeper

Zookeeper 协调集群所有节点的共享信息,在HMaster 和HRegionServer连接到ZooKeeper后创建Ephemeral节点,并使用Heartbeat机制维持这个节点的存活状态,如果某个Ephemeral节点失效,则HMaster会收到通知,并做相应的处理。
HMaster通过监听ZooKeeper中的Ephemeral节点(默认:/hbase/rs/*)来监控HRegionServer的加入和宕机。在第一个HMaster连接到ZooKeeper时会创建Ephemeral节点(默认:/hbasae/master)来表示Active的HMaster,其后加进来的HMaster则监听该Ephemeral节点,如果当前Active的HMaster宕机,则该节点消失,因而其他HMaster得到通知,而将自身转换成Active的HMaster,

在变为Active的HMaster之前,它会创建在/hbase/back-masters/下创建自己的Ephemeral节点。

HMaster

在这里插入图片描述

  1. 管理HRegionServer,实现其region负载均衡。
  2. 管理和分配HRegion,在HRegion split时分配新的HRegion;在HRegionServer退出时迁移其内的HRegion到其他HRegionServer上。
  3. 监控集群中所有HRegionServer的状态。
  4. 实现DDL操作 (Data Definition Language,namespace 和 table 的增删改,columnfamily的增删改等)。
  5. 管理namespace和table的元数据(实际存储在HDFS上)。

RegionServer

在这里插入图片描述

  1. Region server维护Master分配给它的region,处理对这些region的IO请求。
  2. Region server负责切分在运行过程中变得过大的region。
  3. HRegionServer一般和DN在同一台机器上运行,实现数据的本地性。
  4. HRegionServer包含多个HRegion,由WAL(HLog)、BlockCache、MemStore、HFile组成。
  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值