HBase

最新推荐文章于 2024-07-19 21:08:24 发布

水花反复横跳

最新推荐文章于 2024-07-19 21:08:24 发布

阅读量2k

点赞数 1

分类专栏：大数据 hbase 文章标签： hbase java 大数据

本文链接：https://blog.csdn.net/qq_43585580/article/details/125744085

版权

第1章 HBase简介

1.1 HBase定义

HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。
在这里插入图片描述

1.2 HBase数据模型

HBase 的设计理念依据 Google 的 BigTable 论文，论文中对于数据模型的首句介绍。
Bigtable 是一个稀疏的、分布式的、持久的多维排序 map。
之后对于映射的解释如下：

该映射由行键、列键和时间戳索引；映射中的每个值都是一个未解释的字节数组。

最终 HBase 关于数据模型和 BigTable 的对应关系如下：

HBase 使用与 Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。数
据行具有可排序的键和任意数量的列。该表存储稀疏，因此如果用户喜欢，同一表中的行可以具有疯狂变化的列。

最终理解 HBase 数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射 map指代非关系型数据库的 key-Value 结构。
逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V）来看，HBase更像是一个multi-dimensional map（多维地图）

1.2.1 HBase 逻辑结构

HBase 可以用于存储多种结构的数据，以 JSON 为例，存储的数据原貌为：

{
   
	"row_key1":{
   
		"personal_info":{
   
			"name":"zhangsan",
			"city":"北京",
			"phone":"131********"
			},
		"office_info":{
   
			"tel":"010-1111111",
			"address":"atguigu"
		}
	},
	"row_key11":{
   
		"personal_info":{
   
			"city":"上海",
			"phone":"132********"
		},
		"office_info":{
   
			"tel":"010-1111111"
		} 
	},
	"row_key2":{
   
		......
	}
}

存储数据稀疏（有空），数据存储多维，不同的行具有不同的列。
数据存储整体有序，按照RowKey的字典序排列，RowKey为Byte数组

在这里插入图片描述

1.2.2 HBase 物理存储结构

物理存储结构即为数据映射关系，而在概念视图的空单元格，底层实际根本不存储。
在这里插入图片描述

1.2.3 数据模型

1）Name Space
命名空间，类似于关系型数据库的database概念，每个命名空间下有多个表。HBase两个自带的命名空间，分别是hbase和default，hbase中存放的是HBase内置的表，default表是用户默认使用的命名空间。一个表可以自由选择是否有命名空间，如果创建表的时候加上了命名空间后，这个表名字以:

作为区分。
2） Table
类似于关系型数据库的表概念。不同的是，HBase定义表时只需要声明列族即可，不需要声明具体的列。这意味着，往HBase写入数据时，字段可以 动态、按需指定。因此，和关系型数据库相比，HBase能够轻松应对字段变更的场景。
3） Row
HBase表中的每行数据都由一个RowKey和多个Column（列）组成，数据是按照RowKey的字典顺序存储的，并且查询数据时只能根据RowKey进行检索，所以RowKey的设计十分重要。
4) RowKey
Rowkey由用户指定的一串不重复的字符串定义，是一行的唯一标识！数据是按照RowKey的字典顺序存储的，并且查询数据时只能根据RowKey进行检索，所以RowKey的设计十分重要。
如果使用了之前已经定义的RowKey，那么会将之前的数据更新掉。
5） Column Family
列族是多个列的集合。一个列族可以动态地灵活定义多个列。表的相关属性大部分都定义在列族上，同一个表里的不同列族可以有完全不同的属性配置，但是同一个列族内的所有列都会有相同的属性。
列族存在的意义是HBase会把相同列族的列尽量放在同一台机器上，所以说，如果想让某几个列被放到一起，你就给他们定义相同的列族。
官方建议一张表的列族定义的越少越好，列族太多会极大程度地降低数据库性能，且目前版本Hbase的架构，容易出BUG。
6) Column Qualifier
Hbase中的列是可以随意定义的，一个行中的列不限名字、不限数量，只限定列族。因此列必须依赖于列族存在！列的名称前必须带着其所属的列族！例如info：name，info：age。
因为HBase中的列全部都是灵活的，可以随便定义的，因此创建表的时候并不需要指定列！列只有在你插入第一条数据的时候才会生成。其他行有没有当前行相同的列是不确定，只有在扫描数据的时候才能得知。
7） Time Stamp
用于标识数据的不同版本（version），每条数据写入时，系统会自动为其加上该字段，其值为写入HBase的时间。在读取单元格的数据时，版本号可以省略，如果不指定，Hbase默认会获取最后一个版本的数据返回。
8） Cell
由{rowkey, column Family：column Qualifier, time Stamp} 唯一确定的单元。cell中的数据全部是字节码形式存贮。
9） Region
Region由一个表的若干行组成。在Region中行的排序按照行键（rowkey）字典排序。Region不能跨RegionSever，且当数据量大的时候，HBase会拆分Region。
Region由RegionServer进程管理。HBase在进行负载均衡的时候，一个Region有可能会从当前RegionServer移动到其他RegionServer上。
Region是基于HDFS的，它的所有数据存取操作都是调用了HDFS的客户端接口来实现的。

1.3 HBase 基本架构

在这里插入图片描述
架构角色：
1）Region Server
Region Server为 Region的管理者，其实现类为HRegionServer，主要作用如下:
（1）负责数据 cell 的处理，例如写入数据 put，查询数据 get 等
（2）拆分合并 region 的实际执行者，有 master 监控，有 regionServer 执行。
2）Master
Master是所有Region Server的管理者，其实现类为HMaster，负责监控集群中所有的 RegionServer 实例，主要作用如下：
（1）管理元数据表格 hbase:meta，接收用户对表格创建修改删除的命令并执行
（2）监控 region 是否需要进行负载均衡，故障转移和 region 的拆分。
通过启动多个后台线程监控实现上述功能：
①LoadBalancer 负载均衡器
周期性监控 region 分布在 regionServer 上面是否均衡，由参数 hbase.balancer.period 控制周期时间，默认 5 分钟。
②CatalogJanitor 元数据管理器
定期检查和清理 hbase:meta 中的数据。meta 表内容在进阶中介绍。
③MasterProcWAL master 预写日志处理器
把 master 需要执行的任务记录到预写日志 WAL 中，如果 master 宕机，让 backupMaster读取日志继续干。
3）Zookeeper

HBase 通过 Zookeeper 来做 master 的高可用、记录 RegionServer 的部署信息、并且存储有 meta 表的位置信息。
HBase 对于数据的读写操作时直接访问 Zookeeper 的，在 2.3 版本推出 Master Registry模式，客户端可以直接访问 master。使用此功能，会加大对 master 的压力，减轻对 Zookeeper的压力。
4）HDFS
HDFS为HBase提供最终的底层数据存储服务，同时为HBase提供高容错的支持。

第 2 章 HBase 快速入门

2.1 HBase 安装部署

2.1.1 Zookeeper 正常部署

首先保证 Zookeeper 集群的正常部署，并启动(这里我用的是自己的脚本)

[chenyunde@hadoop102 ~]$ zk.sh start

2.1.2 Hadoop 正常部署

Hadoop 集群的正常部署并启动。（hadoop脚本）

[chenyunde@hadoop102 ~]$ myhadoop start

2.1.3 HBase的解压

1）解压 Hbase 到指定目录

[chenyunde@hadoop102 software]$ tar -zxvf hbase-2.4.11-bin.tar.gz -C /opt/module/

[chenyunde@hadoop102 software]$ mv /opt/module/hbase-2.4.11 /opt/module/hbase

2）配置环境变量

[chenyunde@hadoop102 ~]$ sudo vim /etc/profile.d/my_env.sh

添加

#HBASE_HOME
export HBASE_HOME=/opt/module/hbase
export PATH=$PATH:$HBASE_HOME/bin

3）使用 source 让配置的环境变量生效

[chenyunde@hadoop102 module]$ source /etc/profile.d/my_env.sh

2.1.4 HBase 的配置文件

1）hbase-env.sh 修改内容，可以添加到最后：

# 默认true代表hbase会自己启动一个zk，而不是使用集群的
export HBASE_MANAGES_ZK=false

2）hbase-site.xml 修改内容：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
	<property>
		<name>hbase.zookeeper.quorum</name>
		<value>hadoop102,hadoop103,hadoop104</value>
		<description>The directory shared by RegionServers.
		</description>
	</property>
<!-- <property>-->
<!-- <name>hbase.zookeeper.property.dataDir</name>-->
<!-- <value>/export/zookeeper</value>-->
<!-- <description> 记得修改 ZK 的配置文件 -->
<!-- ZK 的信息不能保存到临时文件夹-->
<!-- </description>-->
<!-- </property>-->
	<property>
		<name>hbase.rootdir</name>
		<value>hdfs://hadoop102:8020/hbase</value>
		<description>The directory shared by RegionServers.
		</description>
	</property>
	<property>
		<name>hbase.cluster.distributed</name>
		<value>true</value>
	</property>
</configuration>

3）regionservers

hadoop102
hadoop103
hadoop104

4）解决 HBase 和 Hadoop 的 log4j 兼容性问题，修改 HBase 的 jar 包，使用 Hadoop 的 jar 包

[chenyunde@hadoop102 hbase]$ mv /opt/module/hbase/lib/client-facingthirdparty/slf4j-reload4j-1.7.33.jar /opt/module/hbase/lib/clientfacing-thirdparty/slf4j-reload4j-1.7.33.jar.bak

2.1.5 HBase 远程发送到其他集群

[chenyunde@hadoop102 module]$ xsync hbase/

2.1.6 HBase 服务的启动

1）单点启动

[chenyunde@hadoop102 hbase]$ bin/hbase-daemon.sh start master
[chenyunde@hadoop102 hbase]$ bin/hbase-daemon.sh start regionserver

2）群启

[chenyunde@hadoop102 hbase]$ bin/start-hbase.sh

3）对应的停止服务

[chenyunde@hadoop102 hbase]$ bin/stop-hbase.sh

2.1.7 查看 HBase 页面

启动成功后，可以通过http://hadoop102:16010访问 HBase 管理页面

在这里插入图片描述

2.1.8 高可用（可选）

在HBase中HMaster负责监控HRegionServer的生命周期，均衡RegionServer的负载，如果HMaster挂掉了，那么整个HBase集群将陷入不健康的状态，并且此时的工作状态并不会维持太久。所以HBase支持对HMaster的高可用配置。
1）关闭HBase集群（如果没有开启则跳过此步）

[chenyunde@hadoop102 hbase]$ bin/stop-hbase.sh

2）在conf目录下创建backup-masters文件

[chenyunde@hadoop102 hbase]$ touch conf/backup-masters

3）在backup-masters文件中配置高可用HMaster节点

[chenyunde@hadoop102 hbase]$ echo hadoop103 > conf/backup-masters

4）将整个conf目录scp到其他节点

[chenyunde@hadoop102 hbase]$ xsync conf

5）重启hbase,打开页面测试查看
http://hadooo102:16010

2.2 HBase Shell 操作

2.2.1 基本操作

1）进入 HBase 客户端命令行

[chenyunde@hadoop102 hbase]$ bin/hbase shell

2）查看帮助命令
能够展示 HBase 中所有能使用的命令，主要使用的命令有 namespace 命令空间相关，
DDL 创建修改表格，DML 写入读取数据。

hbase:001:0> help

2.2.2 namespace

1）创建命名空间
使用特定的 help 语法能够查看命令如何使用。

hbase:002:0> help ‘create_namespace’

2）创建命名空间 bigdata

hbase:003:0> create_namespace ‘bigdata’

3）查看所有的命名空间

hbase:004:0> list_namespace

2.2.3 DDL

1）创建表
在 bigdata 命名空间中创建表格 student，两个列族。info 列族数据维护的版本数为 5 个，如果不写默认版本数为 1。

hbase:005:0> create ‘bigdata:student’, {NAME => ‘info’, VERSIONS =>5}, {NAME => ‘msg’}

如果创建表格只有一个列族，没有列族属性，可以简写。
如果不写命名空间，使用默认的命名空间 default。

hbase:009:0> create ‘student1’,‘info’

2）查看表
查看表有两个命令：list 和 describe
list：查看所有的表名

hbase:013:0> list

describe：查看一个表的详情

hbase:014:0> describe ‘student1’

3）修改表
表名创建时写的所有和列族相关的信息，都可以后续通过 alter 修改，包括增加删除列族。
（1）增加列族和修改信息都使用覆盖的方法

hbase:015:0> alter ‘student1’, {NAME => ‘f1’, VERSIONS => 3}

（2）删除信息使用特殊的语法

hbase:015:0> alter ‘student1’, NAME => ‘f1’, METHOD => ‘delete’
hbase:016:0> alter ‘student1’, ‘delete’ => ‘f1’

4）删除表
shell 中删除表格,需要先将表格状态设置为不可用。

hbase:017:0> disable ‘student1’
hbase:018:0> drop ‘student1’

2.2.4 DML

1）写入数据
在 HBase 中如果想要写入数据，只能添加结构中最底层的 cell。可以手动写入时间戳指定cell 的版本，推荐不写默认使用当前的系统时间。

hbase:019:0> put ‘bigdata:student’,‘1001’,‘info:name’,‘zhangsan’
hbase:020:0> put ‘bigdata:student’,‘1001’,‘info:name’,‘lisi’
hbase:021:0> put ‘bigdata:student’,‘1001’,‘info:age’,‘18’

如果重复写入相同 rowKey，相同列的数据，会写入多个版本进行覆盖。
2）读取数据
读取数据的方法有两个：get 和 scan。
get 最大范围是一行数据，也可以进行列的过滤，读取数据的结果为多行 cell。