HBase

第1章 HBase简介

1.1 HBase定义

HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。
在这里插入图片描述

1.2 HBase数据模型

HBase 的设计理念依据 Google 的 BigTable 论文,论文中对于数据模型的首句介绍。
Bigtable 是一个稀疏的、分布式的、持久的多维排序 map。
之后对于映射的解释如下:

该映射由行键、列键和时间戳索引;映射中的每个值都是一个未解释的字节数组。

最终 HBase 关于数据模型和 BigTable 的对应关系如下:

HBase 使用与 Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。数
据行具有可排序的键和任意数量的列。该表存储稀疏,因此如果用户喜欢,同一表中的行可 以具有疯狂变化的列。

最终理解 HBase 数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射 map指代非关系型数据库的 key-Value 结构。
逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map(多维地图)

1.2.1 HBase 逻辑结构

HBase 可以用于存储多种结构的数据,以 JSON 为例,存储的数据原貌为:

{
   
	"row_key1":{
   
		"personal_info":{
   
			"name":"zhangsan",
			"city":"北京",
			"phone":"131********"
			},
		"office_info":{
   
			"tel":"010-1111111",
			"address":"atguigu"
		}
	},
	"row_key11":{
   
		"personal_info":{
   
			"city":"上海",
			"phone":"132********"
		},
		"office_info":{
   
			"tel":"010-1111111"
		} 
	},
	"row_key2":{
   
		......
	}
}

存储数据稀疏(有空),数据存储多维,不同的行具有不同的列。
数据存储整体有序,按照RowKey的字典序排列,RowKey为Byte数组

在这里插入图片描述
在这里插入图片描述

1.2.2 HBase 物理存储结构

物理存储结构即为数据映射关系,而在概念视图的空单元格,底层实际根本不存储。
在这里插入图片描述

1.2.3 数据模型

1)Name Space
命名空间,类似于关系型数据库的database概念,每个命名空间下有多个表。HBase两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名空间。一个表可以自由选择是否有命名空间,如果创建表的时候加上了命名空间后,这个表名字以:

作为区分。
2) Table
类似于关系型数据库的表概念。不同的是,HBase定义表时只需要声明列族即可,不需要声明具体的列。这意味着,往HBase写入数据时,字段可以 动态、按需指定。因此,和关系型数据库相比,HBase能够轻松应对字段变更的场景。
3) Row
HBase表中的每行数据都由一个RowKey和多个Column(列)组成,数据是按照RowKey的字典顺序存储的,并且查询数据时只能根据RowKey进行检索,所以RowKey的设计十分重要。
4) RowKey
Rowkey由用户指定的一串不重复的字符串定义,是一行的唯一标识!数据是按照RowKey的字典顺序存储的,并且查询数据时只能根据RowKey进行检索,所以RowKey的设计十分重要。
如果使用了之前已经定义的RowKey,那么会将之前的数据更新掉。
5) Column Family
列族是多个列的集合。一个列族可以动态地灵活定义多个列。表的相关属性大部分都定义在列族上,同一个表里的不同列族可以有完全不同的属性配置,但是同一个列族内的所有列都会有相同的属性。
列族存在的意义是HBase会把相同列族的列尽量放在同一台机器上,所以说,如果想让某几个列被放到一起,你就给他们定义相同的列族。
官方建议一张表的列族定义的越少越好,列族太多会极大程度地降低数据库性能,且目前版本Hbase的架构,容易出BUG。
6) Column Qualifier
Hbase中的列是可以随意定义的,一个行中的列不限名字、不限数量,只限定列族。因此列必须依赖于列族存在!列的名称前必须带着其所属的列族!例如info:name,info:age。
因为HBase中的列全部都是灵活的,可以随便定义的,因此创建表的时候并不需要指定列!列只有在你插入第一条数据的时候才会生成。其他行有没有当前行相同的列是不确定,只有在扫描数据的时候才能得知。
7) Time Stamp
用于标识数据的不同版本(version),每条数据写入时,系统会自动为其加上该字段,其值为写入HBase的时间。在读取单元格的数据时,版本号可以省略,如果不指定,Hbase默认会获取最后一个版本的数据返回。
8) Cell
由{rowkey, column Family:column Qualifier, time Stamp} 唯一确定的单元。cell中的数据全部是字节码形式存贮。
9) Region
Region由一个表的若干行组成。在Region中行的排序按照行键(rowkey)字典排序。Region不能跨RegionSever,且当数据量大的时候,HBase会拆分Region。
Region由RegionServer进程管理。HBase在进行负载均衡的时候,一个Region有可能会从当前RegionServer移动到其他RegionServer上。
Region是基于HDFS的,它的所有数据存取操作都是调用了HDFS的客户端接口来实现的。

1.3 HBase 基本架构

在这里插入图片描述
架构角色:
1)Region Server
Region Server为 Region的管理者,其实现类为HRegionServer,主要作用如下:
(1)负责数据 cell 的处理,例如写入数据 put,查询数据 get 等
(2)拆分合并 region 的实际执行者,有 master 监控,有 regionServer 执行。
2)Master
Master是所有Region Server的管理者,其实现类为HMaster,负责监控集群中所有的 RegionServer 实例,主要作用如下:
(1)管理元数据表格 hbase:meta,接收用户对表格创建修改删除的命令并执行
(2)监控 region 是否需要进行负载均衡,故障转移和 region 的拆分。
通过启动多个后台线程监控实现上述功能:
①LoadBalancer 负载均衡器
周期性监控 region 分布在 regionServer 上面是否均衡,由参数 hbase.balancer.period 控制周期时间,默认 5 分钟。
②CatalogJanitor 元数据管理器
定期检查和清理 hbase:meta 中的数据。meta 表内容在进阶中介绍。
③MasterProcWAL master 预写日志处理器
把 master 需要执行的任务记录到预写日志 WAL 中,如果 master 宕机,让 backupMaster读取日志继续干。
3)Zookeeper

  • HBase 通过 Zookeeper 来做 master 的高可用、记录 RegionServer 的部署信息、并且存储有 meta 表的位置信息。
  • HBase 对于数据的读写操作时直接访问 Zookeeper 的,在 2.3 版本推出 Master Registry模式,客户端可以直接访问 master。使用此功能,会加大对 master 的压力,减轻对 Zookeeper的压力。
    4)HDFS
    HDFS为HBase提供最终的底层数据存储服务,同时为HBase提供高容错的支持。

第 2 章 HBase 快速入门

2.1 HBase 安装部署

2.1.1 Zookeeper 正常部署

首先保证 Zookeeper 集群的正常部署,并启动(这里我用的是自己的脚本)

[chenyunde@hadoop102 ~]$ zk.sh start

2.1.2 Hadoop 正常部署

Hadoop 集群的正常部署并启动。(hadoop脚本)

[chenyunde@hadoop102 ~]$ myhadoop start

2.1.3 HBase的解压

1)解压 Hbase 到指定目录

[chenyunde@hadoop102 software]$ tar -zxvf hbase-2.4.11-bin.tar.gz -C /opt/module/

[chenyunde@hadoop102 software]$ mv /opt/module/hbase-2.4.11 /opt/module/hbase

2)配置环境变量

[chenyunde@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh

添加

#HBASE_HOME
export HBASE_HOME=/opt/module/hbase
export PATH=$PATH:$HBASE_HOME/bin

3)使用 source 让配置的环境变量生效

[chenyunde@hadoop102 module]$ source /etc/profile.d/my_env.sh

2.1.4 HBase 的配置文件

1)hbase-env.sh 修改内容,可以添加到最后:

# 默认true代表hbase会自己启动一个zk,而不是使用集群的
export HBASE_MANAGES_ZK=false

2)hbase-site.xml 修改内容:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<property>
		<name>hbase.zookeeper.quorum</name>
		<value>hadoop102,hadoop103,hadoop104</value>
		<description>The directory shared by RegionServers.
		</description>
	</property>
<!-- <property>-->
<!-- <name>hbase.zookeeper.property.dataDir</name>-->
<!-- <value>/export/zookeeper</value>-->
<!-- <description> 记得修改 ZK 的配置文件 -->
<!-- ZK 的信息不能保存到临时文件夹-->
<!-- </description>-->
<!-- </property>-->
	<property>
		<name>hbase.rootdir</name>
		<value>hdfs://hadoop102:8020/hbase</value>
		<description>The directory shared by RegionServers.
		</description>
	</property>
	<property>
		<name>hbase.cluster.distributed</name>
		<value>true</value>
	</property>
</configuration>

3)regionservers

hadoop102
hadoop103
hadoop104

4)解决 HBase 和 Hadoop 的 log4j 兼容性问题,修改 HBase 的 jar 包,使用 Hadoop 的 jar 包

[chenyunde@hadoop102 hbase]$ mv /opt/module/hbase/lib/client-facingthirdparty/slf4j-reload4j-1.7.33.jar /opt/module/hbase/lib/clientfacing-thirdparty/slf4j-reload4j-1.7.33.jar.bak

2.1.5 HBase 远程发送到其他集群

[chenyunde@hadoop102 module]$ xsync hbase/

2.1.6 HBase 服务的启动

1)单点启动

[chenyunde@hadoop102 hbase]$ bin/hbase-daemon.sh start master
[chenyunde@hadoop102 hbase]$ bin/hbase-daemon.sh start regionserver

2)群启

[chenyunde@hadoop102 hbase]$ bin/start-hbase.sh

3)对应的停止服务

[chenyunde@hadoop102 hbase]$ bin/stop-hbase.sh

2.1.7 查看 HBase 页面

启动成功后,可以通过http://hadoop102:16010访问 HBase 管理页面

在这里插入图片描述

2.1.8 高可用(可选)

在HBase中HMaster负责监控HRegionServer的生命周期,均衡RegionServer的负载,如果HMaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对HMaster的高可用配置。
1)关闭HBase集群(如果没有开启则跳过此步)

[chenyunde@hadoop102 hbase]$ bin/stop-hbase.sh

2)在conf目录下创建backup-masters文件

[chenyunde@hadoop102 hbase]$ touch conf/backup-masters

3)在backup-masters文件中配置高可用HMaster节点

[chenyunde@hadoop102 hbase]$ echo hadoop103 > conf/backup-masters

4)将整个conf目录scp到其他节点

[chenyunde@hadoop102 hbase]$ xsync conf

5)重启hbase,打开页面测试查看
http://hadooo102:16010

2.2 HBase Shell 操作

2.2.1 基本操作

1)进入 HBase 客户端命令行

[chenyunde@hadoop102 hbase]$ bin/hbase shell

2)查看帮助命令
能够展示 HBase 中所有能使用的命令,主要使用的命令有 namespace 命令空间相关,
DDL 创建修改表格,DML 写入读取数据。

hbase:001:0> help

2.2.2 namespace

1)创建命名空间
使用特定的 help 语法能够查看命令如何使用。

hbase:002:0> help ‘create_namespace’

2)创建命名空间 bigdata

hbase:003:0> create_namespace ‘bigdata’

3)查看所有的命名空间

hbase:004:0> list_namespace

2.2.3 DDL

1)创建表
在 bigdata 命名空间中创建表格 student,两个列族。info 列族数据维护的版本数为 5 个,如果不写默认版本数为 1。

hbase:005:0> create ‘bigdata:student’, {NAME => ‘info’, VERSIONS =>5}, {NAME => ‘msg’}

如果创建表格只有一个列族,没有列族属性,可以简写。
如果不写命名空间,使用默认的命名空间 default。

hbase:009:0> create ‘student1’,‘info’

2)查看表
查看表有两个命令:list 和 describe
list:查看所有的表名

hbase:013:0> list

describe:查看一个表的详情

hbase:014:0> describe ‘student1’

3)修改表
表名创建时写的所有和列族相关的信息,都可以后续通过 alter 修改,包括增加删除列族。
(1)增加列族和修改信息都使用覆盖的方法

hbase:015:0> alter ‘student1’, {NAME => ‘f1’, VERSIONS => 3}

(2)删除信息使用特殊的语法

hbase:015:0> alter ‘student1’, NAME => ‘f1’, METHOD => ‘delete’
hbase:016:0> alter ‘student1’, ‘delete’ => ‘f1’

4)删除表
shell 中删除表格,需要先将表格状态设置为不可用。

hbase:017:0> disable ‘student1’
hbase:018:0> drop ‘student1’

2.2.4 DML

1)写入数据
在 HBase 中如果想要写入数据,只能添加结构中最底层的 cell。可以手动写入时间戳指定cell 的版本,推荐不写默认使用当前的系统时间。

hbase:019:0> put ‘bigdata:student’,‘1001’,‘info:name’,‘zhangsan’
hbase:020:0> put ‘bigdata:student’,‘1001’,‘info:name’,‘lisi’
hbase:021:0> put ‘bigdata:student’,‘1001’,‘info:age’,‘18’

如果重复写入相同 rowKey,相同列的数据,会写入多个版本进行覆盖。
2)读取数据
读取数据的方法有两个:get 和 scan。
get 最大范围是一行数据,也可以进行列的过滤,读取数据的结果为多行 cell。

hbase:022:0> get ‘bigdata:student’,‘1001’ hbase:023:0> get
‘bigdata:student’,‘1001’ , {COLUMN => ‘info:name’}

也可以修改读取 cell 的版本数,默认读取一个。最多能够读取当前列族设置的维护版本数。

hbase:024:0>get ‘bigdata:student’,‘1001’ , {COLUMN => ‘info:name’, VERSIONS => 6}

scan 是扫描数据,能够读取多行数据,不建议扫描过多的数据,推荐使用 startRow 和stopRow 来控制读取的数据,默认范围左闭右开。

hbase:025:0> scan ‘bigdata:student’,{STARTROW => ‘1001’,STOPROW => ‘1002’}

实际开发中使用 shell 的机会不多,所有丰富的使用方法到 API 中介绍。

3)删除数据
删除数据的方法有两个:delete 和 deleteall。
delete 表示删除一个版本的数据,即为 1 个 cell,不填写版本默认删除最新的一个版本。

hbase:026:0> delete ‘bigdata:student’,‘1001’,‘info:name’

deleteall 表示删除所有版本的数据,即为当前行当前列的多个 cell。(执行命令会标记数据为要删除,不会直接将数据彻底删除,删除数据只在特定时期清理磁盘时进行)

hbase:027:0> deleteall ‘bigdata:student’,‘1001’,‘info:name’

第 3 章 HBase API

3.1 环境准备

新建项目后在 pom.xml 中添加依赖:
注意:会报错 javax.el 包不存在,是一个测试用的依赖,不影响使用

<dependencies>
        <dependency

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值