Hbase

14.1.1. 概念
base 是分布式、面向列的开源数据库(其实准确的说是面向列族)。HDFS 为 Hbase 提供可靠的
底层数据存储服务,MapReduce 为 Hbase 提供高性能的计算能力,Zookeeper 为 Hbase 提供
稳定服务和 Failover 机制,因此我们说 Hbase 是一个通过大量廉价的机器解决海量数据的高速存
储和读取的分布式数据库解决方案。
14.1.2. 列式存储
列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库
是自动索引化的。
这里的列式存储其实说的是列族存储,Hbase 是根据列族来存储数据的。列族下面可以有非常多
的列,列族在创建表的时候就必须指定。为了加深对 Hbase 列族的理解,下面是一个简单的关系
型数据库的表和 Hbase 数据库的表:

 

14.1.3. Hbase 核心概念
14.1.3.1. Column Family 列族
Column Family 又叫列族,Hbase 通过列族划分数据的存储,列族下面可以包含任意多的列,实
现灵活的数据存取。Hbase 表的创建的时候就必须指定列族。就像关系型数据库创建的时候必须
指定具体的列是一样的。Hbase 的列族不是越多越好,官方推荐的是列族最好小于或者等于 3。我
们使用的场景一般是 1 个列族。
14.1.3.2. Rowkey( Rowkey 查询,Rowkey 范围扫描,全表扫描
Rowkey 的概念和 mysql 中的主键是完全一样的,Hbase 使用 Rowkey 来唯一的区分某一行的数
据。 Hbase 只支持 3 中查询方式:基于 Rowkey 的单行查询,基于 Rowkey 的范围扫描,全表扫
描。
14.1.3.3. Region 分区
Region :Region 的概念和关系型数据库的分区或者分片差不多。Hbase 会将一个大表的数
据基于 Rowkey 的不同范围分配到不通的 Region 中 ,每个 Region 负责一定范围的数据访问
和存储。这样即使是一张巨大的表,由于被切割到不通的 region,访问起来的时延也很低。
14.1.3.4. TimeStamp 多版本
TimeStamp 是实现 Hbase 多版本的关键。在 Hbase 中使用不同的 timestame 来标识相同
rowkey 行对应的不通版本的数据。在写入数据的时候,如果用户没有指定对应的
timestamp,Hbase 会自动添加一个 timestamp,timestamp 和服务器时间保持一致。
Hbase 中,相同 rowkey 的数据按照 timestamp 倒序排列。默认查询的是最新的版本,用户
可同指定 timestamp 的值来读取旧版本的数据
14.1.4. Hbase 核心架构
Hbase 是由 Client、Zookeeper、Master、HRegionServer、HDFS 等几个组建组成。
14.1.4.1. Client:
Client 包含了访问 Hbase 的接口,另外 Client 还维护了对应的 cache 来加速 Hbase 的
访问,比如 cache 的.META.元数据的信息。
14.1.4.2. Zookeeper:
Hbase 通过 Zookeeper 来做 master 的高可用、RegionServer 的监控、元数据的入口
以及集群配置的维护等工作。具体工作如下:
1. 通过 Zoopkeeper 来保证集群中只有 1 个 master 在运行,如果 master 异
常,会通过竞争机制产生新的 master 提供服务
2. 通过 Zoopkeeper 来监控 RegionServer 的状态,当 RegionSevrer 有异常的
时候,通过回调的形式通知 Master RegionServer 上下限的信息
3. 通过 Zoopkeeper 存储元数据的统一入口地址。
14.1.4.3. Hmaster
master 节点的主要职责如下:
1. 为 RegionServer 分配 Region
2. 维护整个集群的负载均衡
3. 维护集群的元数据信息发现失效的 Region,并将失效的 Region 分配到正常
RegionServer 上当 RegionSever 失效的时候,协调对应 Hlog 的拆分
14.1.4.4. HregionServer
HregionServer 直接对接用户的读写请求,是真正的“干活”的节点。它的功能概括如
下:
1. 管理 master 为其分配的 Region
2. 处理来自客户端的读写请求
3. 负责和底层 HDFS 的交互,存储数据到 HDFS
4. 负责 Region 变大以后的拆分
5. 负责 Storefile 的合并工作
14.1.4.5. Region 寻址方式(通过 zookeeper .META)
第 1 步:Client 请求 ZK 获取.META.所在的 RegionServer 的地址。
第 2 步:Client 请求.META.所在的 RegionServer 获取访问数据所在的 RegionServer 地
址,client 会将.META.的相关信息 cache 下来,以便下一次快速访问。
第 3 步:Client 请求数据所在的 RegionServer,获取所需要的数据。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值