Hbase基础全解析

最新推荐文章于 2024-07-28 23:55:21 发布

vinfly_li

最新推荐文章于 2024-07-28 23:55:21 发布

阅读量6k

点赞数 5

分类专栏： hbase 文章标签： Hbase spark hadoop java cloudera

本文链接：https://blog.csdn.net/vinfly_li/article/details/79395994

版权

本文全面解析HBase，涵盖HBase概述、数据表结构、安装部署、物理结构、架构、数据存储、Java API使用、MapReduce集成、数据迁移、表设计与压缩配置，以及HBase与Hive的集成。详细介绍了Row Key设计、列族、时间戳、WAL、HMaster和HRegionServer角色，以及如何避免数据热点。适合大数据开发者和HBase使用者深入了解HBase。

摘要由CSDN通过智能技术生成

HBASE基础全解析

标签：大数据生态
本文使用版本 hbase-0.98.6-cdh5.3.6
源码库： https://github.com/apache/hbase/releases
注：rel = release即发行版本， RC=Release Candidate即候选发行版
Write By VinFly

HBASE概述

HBASE是HADOOP数据库，是一个分布式的，可扩展的，存储海量数据的数据库，存储级别一般为数十亿行及数百万列的数据，它是一个非关系型数据库，能随机、实时读写，部署在低廉的商用机上（扩展性好），基于高可用性的分布式系统。

HBASE数据表结构

HBASE是以表的形式存储数据，表有行和列组成，列划分为若干个列族（Column Family）。
在HBASE的表中，Row Key的设计是表中每条记录的“主键”，在查询HBASE中的数据时，也是根据Row Key来查询，所以Row Key的设计非常重要，Row Key的值在表中以字节数组的类型存储。HBASE表结构如下图所示。
image_1ar7vk6lhqr015l28p619u51vig9.png-448kB

数据表结构详解：

- Row Key

与nosql数据库们一样,row key是用来检索记录的主键。访问hbase table中的行，只有三种方式：

通过单个rowkey访问 (get)
通过rowkey的range (scan)
全表扫描

Row key行键 (Row key)可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，row key保存为字节数组。
存储时，数据按照Row key的字典序(byte order)排序存储。设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)

- 列族（Column Family）

hbase表中的每个列，都归属与某个列族。列族是表的schema的一部分(而列不是)，必须在使用表之前定义。列名都以列族作为前缀。例如courses:history ， courses:math 都属于 courses 这个列族。
访问控制、磁盘和内存的使用统计都是在列族层面进行的。实际应用中，列族上的控制权限能帮助我们管理不同类型的应用：我们允许一些应用可以添加新的基本数据、一些应用可以读取基本数据并创建继承的列族、一些应用则只允许浏览数据（甚至可能因为隐私的原因不能浏览所有数据）。

时间戳（Time Stamp）

HBase中通过row和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个版本。版本通过时间戳来索引。时间戳的类型是 64位整型。时间戳可以由hbase(在数据写入时自动 )赋值，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。
为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，hbase提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。maxversion=3 verson=1

Cell
唯一确定的单元。cell中的数据是没有类型的，全部是字节码形式存贮
{rowkey, column( =<family> + <label>), version}

HBASE安装部署及简单SHELL使用

1、下载、解压源码包
使用HBASE要注意其与Hadoop的兼容性，本文使用CDH5.3.6版本的HBASE及HADOOP，下载地址：
http://archive.cloudera.com/cdh5/cdh/5/
下载完成后上传Hbase压缩包，赋予执行权限，解压至指定目录

2、配置

检查jdk是否正确（jdk版本使用1.7以上），启动hadoop，检查dfsadmin是否脱离安全模式
image_1ar8328e1e3m19q91pn5i6o1om3m.png-57.7kB
配置{HBASE_HOME}/conf下的hbase-enc.sh
export JAVA_HOME=/opt/modules/jdk1.7.0_67 export HBASE_MANAGES_ZK=false
其中的export HBASE_MANAGES_ZK=false是配置是否使用HBASE自带的zookeeper
配置{HBASE_HOME}/conf下的hbase-site.xml
首先在hbase目录下创建目录(可以在任意目录下)：
mkdir -p data/tmp
配置hbase.tmp.dir属性值为创建的目录
image_1ar86rhn0e3kmrp1efj1e011k0413.png-31.4kB
配置hbase.root.dir指定存储的数据在HDFS上的目录
image_1ar86s2n413qt10det1k143i18r11g.png-8.5kB
配置hbase.cluster.distributed值为true，指定是否为分布式模式
image_1ar86skqp4bh18td1rcf187613kt1t.png-8kB
配置hbase.zookeeper.quorum ，这里配置的是zookeeper所在机器，在设置了主机名与IP地址映射之后，这里写的是主机名，中间用逗号隔开。
image_1ar871ta81djlq8oc7g1h091e22a.png-9.4kB
配置{HBASE_HOME}/conf下的regionservers，这里配置的是regionserver所在机器，根据需要自己设定。
image_1ar874t29id64hi1m1cdinnmq2n.png-4.9kB
注：如果下载的hbase版本与使用的hadoop版本不兼容，替换掉{HBASE_HOME}/lib下的hadoop jar包即可。
到这里基本的配置就完成了，如果有其他参数要求，参考官网。
地址：http://hbase.apache.org/book.html#config.files

3、启动与shell基本使用

启动命令：
${HBASE_HOME}/bin/hbase-daemon.sh start master
${HBASE_HOME}/bin/hbase-daemon.sh start regionserver

查看启动的进程：
image_1ar87cq491ffl1csv8o21i2610h334.png-47.1kB
启动Hbase命令行：bin/hbase shell
image_1ar87i2091ee01kefejq1dh4sfr3h.png-74.5kB
在命令行中，如果不熟悉某个命令，可以使用 help：查看帮助信息比如help+’create’查看create命令使用方法
基本命令举例
创建表
create 'user', 'info' //创建user表，列族名为info
PUT/UPDATE //插入数据
put 'user', '100001', 'info:name', 'zhangsan'
image_1ar87mhg919pm8clmg718hv2em3u.png-23.8kB
查询
get
依据ROWKEY进行查询，速度最快的
get 'user', '100001'
image_1ar87n9lk17ha1pgj100r1b75kgh4b.png-66.6kB
scan
全表扫描，也就测试用用，实际慎用
scan 'user'
scan range
范围查询
使用最多最广泛
scan 'user' , {STARTROW => ‘100001’}
image_1ar87q1oc11b01qo62tjecj1sj14o.png-105.2kB
HBASE也有它的端口号，默认为60010，可在浏览器中监控HBASE运行状况。
image_1ar87s54btfj12knfe3fb9fo55.png-52.8kB

HBASE的物理结构

首先看HBASE的物理模型图
HBASE物理模型
从图中可以看出一下几点：

在HBASE的表中，所有的行都是按照Row Key的字典序排列（a~z,1~9…）
在行的方向上分割为多个Region，而Region是按大小进行分割的，每个表初始只有一个Region，随着数据的增多，Region不断增大，当增大到一定阀值得时候，Region就会等分为两个新的Region
Region是HBASE中分布式存储的最小单元，不同的Region分布到不同的RegionServer上
Region是分布式存储的最小单元，但它不是存储的最小单元，Region又由一个或者多个Store组成，每个Store保存一个column family，每个Store由一个memStore和0到多个StoreFile组成，其中的memStore存储在内存中，StoreFile存储在HDFS文件系统上。
HBASE在HDFS上的存储
HBASE中所有数据文件都存储在了HDFS文件系统上，HBASE主要包括两种文件类型：
HFile：HBase中KeyValue数据的存储格式，HFile是Hadoop的二进制格式文件，实际上上面提到的StoreFile就是对HFile做了轻量级包装，即StoreFile底层就是HFile
HLog File：HBASE中的WAL（Write Ahead Log ：预写日志）的存储格式，物理上是Hadoop的Sequence File，具体的WAL将在后面讲解。

HBASE架构

HBase架构也是主从服务器架构，它由HRegion服务器（HRegion Server）群和HBase Master服务器（HBaseMaster Server)构成。HBase Master服务器负责管理所有的HRegion服务器，而HBase中所有的服务器都是通过ZooKeeper来进行协调，并处理HBase服务器运行期间可能遇到的错误。HBase Master Server本身不存储HBase中的任何数据，HBase中的表可能会被划分为多个HRegion，然后存储到HRegion Server群中，HBase Master Server中存储的是从数据到HRegionServer中的映射。
HBASE架构见图
image_1ar8botqk1sbjvh4jf4e8q1ekq1h.png-303.8kB

HBASE架构中的组件解析

Client

客户端Client是整个集群的访问入口
Client使用HBase RPC机制与HMaster和HRegionserver进行通信
与HMaster进行通信进行管理类操作
与HRegionserver进行数据读写类操作
包含访问HBase的接口，并维护cache来加快对HBase的访问

协作组件zookeeper
zookeeper作为一个大数据协作框架，它的HBASE中的地位相当重要。

1、 zookeeper管理着HBASE的meta表的region等相关信息，那么何谓meta表？
在HBASE中，有命名空间——NAMESPACE的概念，它类似于数据库，我们用户自定义的表存储在名为default的namespace下，而meta表是hbase自带的系统表，它存储在名为hbase的命名空间下，见图。

其中的user table是我们自定义的表，而catalog tables是系统自带的表，那么meta表中存储的是什么数据呢？
通过完整的hbase命令hbase(main):005:0> scan 'hbase:meta'查看meta表中的信息

在这个meta表中可以看到user表的信息，比如user表的某个region存储在了哪个regionserver上，region的startRowKey和endRowKey等信息。但是meta表也是HBASE中的一张表，它也遵循HBASE表的一般特性，那么它也有自己的region，比如某个region存储某张用户自定义的表，这些region的信息（表名、表的唯一标识符、startRowKey、endRowKey/存储在哪个regionserver上…）存储在哪里呢？
这里我们进入zookeeper的znode里面查看zookeeper存储的一些数据
使用命令：bin/zkCli.sh -> ls -> ls /hbase

在这里可以看到zookeeper存储了关于hbase的数据，其中的meta-region-server中就是存储了hbase中meta表的region的相关数据。所以，这里我们总结出对HBASE中数据操作的流程：
client->zookeeper->meta-region-server->regionServer上meta数据查找具体Regioin
2、 zookeeper中存储了监控着regionserver是否存活的数据，见图。也就是说，zookeeper实时监控了Hregionserver的上线和下线信息，并通知给HMaster。

3、 zookeeper保证了在任何时候，集群只有一个HMaster，如果一个HMaster宕掉，那么zookeeper会通过它的选举机制再重新选取一个regionserver作为新的HMaster，所以HBase集群不会有单节点故障。

主节点HMaster

为Region server分配region
负责Region server的负载均衡
发现失效的Region server并重新分配其上的region
管理用户对table

最低0.47元/天解锁文章

vinfly_li

关注

5
点赞
踩
32

收藏

觉得还不错? 一键收藏
2
评论
Hbase基础全解析

HBASE基础全解析标签：大数据生态本文使用版本 hbase-0.98.6-cdh5.3.6 源码库： https://github.com/apache/hbase/releases 注：rel = release即发行版本， RC=Release Candidate即候选发行版 Write By VinFlyHBASE概述HBASE概述HBASE是...
复制链接

扫一扫

专栏目录