HBase入门与基本使用

最新推荐文章于 2024-09-25 22:35:39 发布

Lambda程序员

最新推荐文章于 2024-09-25 22:35:39 发布

阅读量402

点赞数 1

本文链接：https://blog.csdn.net/pyycsd/article/details/102803269

版权

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

Hadoop生太圈

通过Hadoop生态圈，可以看到HBase的身影，可见HBase在Hadoop的生态圈是扮演这一个重要的角色那就是实时、 分布式、 高维数据 的数据存储。

相比关系型数据库的表模型不同:

HBase的表没有固定的字段定义；
HBase的表每行存储的都是一些 key-value 键值对;
HBase的表有列族的划分，用户可以指定将哪些 kv 插入哪个列族
HBase的表在物理存储上，是按照列族来分隔的，不同列族的数据一定存储在不同的文件中；
HBase的表中的每一行都固定有一个行键，而且每一样的行键在表中不能重复；
HBase中的数据，包含行键，包含key，包含value，都是byte[]类型，HBae不负责为用户维护数据类型
HBase对事务的支持很差

HBase和其它数据库之间差异

HBase特性

HBase相比于其它 NoSQL数据库（mongodb、redis、cassendra、hazelcast）的特点，HBase的表数据库存储在HDFS文件系统中，从而，HBase具备如下特性：

数据的最终持久化存储是基于: HDFS --> 存储容量可以线性扩展
HBase的数据增删改查功能模块是：分布式系统 --> HBase是一个分布式数据库系统
主要用来存储非结构化和半结构化的松散数据（列存NoSQL数据库）

HBase体系架构

Client
包含访问HBase的接口并维护cache来加快对HBase的访问
Zookeeper
- 保证任何时候，集群中只有一个master
- 存贮所有Region的寻址入口。
- 实时监控Region server的上线和下线信息。并实时通知Master
- 存放整个HBase集群的元数据以及集群的状态信息
Master
- 管理HRegionServer，实现其负载均衡
- 发现失效的Region server并重新分配其上的region
- 管理用户对table的增删改操作
- 管理namespace和table的元数据（实际存储在HDFS上）
- 权限控制（ACL）
- 监控集群中所有HRegionServer的状态(通过Heartbeat和监听ZooKeeper中的状态)
RegionServer
- 管理自己所负责的region数据的读写
- 读写HDFS，管理Table中的数据
- Client直接通过HRegionServer读写数据（从HMaster中获取元数据，找到RowKey所在的HRegion/HRegionServer后）
HLog(WAL log)
- HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是 HLogKey对象，HLogKey中记录了写入数据的归属信息，
- 除了table和 region名字外，同时还包括sequence number和timestamp，timestamp是” 写入时间”，sequence number的起始值为0，
- 或者是最近一次存入文件系统中sequence number。
- HLog SequeceFile的Value是HBase的KeyValue对象，即对应HFile中的 KeyValue
Region
- HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据；每个表一开始只有一个region，随着数据不断插入表，
- region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region（裂变）；
- 当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver上。
Memstore 与 storefile
- 一个region由多个store组成，一个store对应一个CF（列族）
- store包括位于内存中的memstore和位于磁盘的storefile写操作先写入 memstore，当memstore中的数据达到某个阈值，
- hregionserver会启动 flashcache进程写入storefile，每次写入形成单独的一个storefile
- 当storefile文件的数量增长到一定阈值后，系统会进行合并（minor、 major compaction），在合并过程中会进行版本合并和删除工作（majar），形成更大的storefile。
- 当一个region所有storefile的大小和超过一定阈值后，会把当前的region 分割为两个，并由hmaster分配到相应的regionserver服务器，实现负载均衡。
- 客户端检索数据，先在memstore找，找不到再找storefile
- HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的HRegion server上。
- HRegion由一个或者多个Store组成，每个store保存一个columns family。
- 每个Strore又由一个memStore和0至多个StoreFile组成。
如图：StoreFile 以HFile格式保存在HDFS上。

Hbase客户端读写数据时的路由流程

客户端先到zookeeper查找hbase:meta所在的RegionServer服务器
去hbase:meta表查找自己所要的数据所在的region server
去目标region server上的region要自己的数据

可以看出客户端查找数据可以不经过master

HBase数据模型

在关系型数据的思维下会感觉，上面的表格是一个5列4行的数据表格，但是在HBase中其实只是一行数据。

这里面设计概念：

Row Key：
- 决定一行数据的唯一标识
- RowKey是按照字典顺序排序的
- RowKey最多只能存储64k的字节数据
Timestamp时间戳：
- 在HBase每个cell存储单元对同一份数据有多个版本，根据唯一的时间戳来区分每个版本之间的差异，不同版本的数据按照时间倒序排序，最新的数据版本排在最前面。
- 时间戳的类型是64位整型。
- 时间戳可以由HBase(在数据写入时自动)赋值，此时时间戳是精确到毫秒的当前系统时间。
- 时间戳也可以由客户显式赋值，如果应用程序要避免数据版本冲突，就必须自己生成具有唯一性的时间戳。
Column Family列族（CF1、CF2、CF3） & qualifier列：
- HBase表中每个列都归属于某个列族，列族必须作为表模式（schema）定义的一部分预先给出。
```
  如：create 't_user_info','base_info','extra_info'
                    表名      列族名   列族名
```
- 列名以列族作为前缀，每个“列族”都可以有多个列成员(column，每个列族中可以存放几千~上千万个列)；如 CF1:q1, CF2:qw,
- 新的列族成员（列）可以随后按需、动态加入，Family下面可以有多个Qualifier，所以可以简单的理解为，HBase中的列是二级列，
- 也就是说Family是第一级列，Qualifier是第二级列。两个是父子关系。
- 权限控制、存储以及调优都是在列族层面进行的；
- HBase把同一列族里面的数据存储在同一目录下，由几个文件保存。
- 目前为止HBase的列族能能够很好处理最多不超过3个列族。
Cell单元格：
- 由行和列的坐标交叉决定；
- 单元格是有版本的（由时间戳来作为版本）；
- 单元格的内容是未解析的字节数组（Byte[]），cell中的数据是没有类型的，全部是字节码形式存贮。
- 由{row key，column(=<family> +<qualifier>)，version}唯一确定的单元。

HBase命令行客户端操作

建表：

create 't_user_info','base_info','extra_info'
       表名      列族名   列族名

插入数据：

hbase(main):011:0> put 't_user_info','001','base_info:username','zhangsan'
0 row(s) in 0.2420 seconds

hbase(main):012:0> put 't_user_info','001','base_info:age','18'
0 row(s) in 0.0140 seconds

hbase(main):013:0> put 't_user_info','001','base_info:sex','female'
0 row(s) in 0.0070 seconds

hbase(main):014:0> put 't_user_info','001','extra_info:career','it'
0 row(s) in 0.0090 seconds

hbase(main):015:0> put 't_user_info','002','extra_info:career','actoress'
0 row(s) in 0.0090 seconds

hbase(main):016:0> put 't_user_info','002','base_info:username','liuyifei'
0 row(s) in 0.0060 seconds

查询数据：

方式一：scan 扫描

hbase(main):017:0> scan 't_user_info'
ROW                               COLUMN+CELL                                                                                     
001                              column=base_info:age, timestamp=1496567924507, value=18                                         
001                              column=base_info:sex, timestamp=1496567934669, value=female                                     
001                              column=base_info:username, timestamp=1496567889554, value=zhangsan                              
001                              column=extra_info:career, timestamp=1496567963992, value=it                                     
002                              column=base_info:username, timestamp=1496568034187, value=liuyifei                              
002                              column=extra_info:career, timestamp=1496568008631, value=actoress                               
2 row(s) in 0.0420 seconds

方式二：get 单行数据

hbase(main):020:0> get 't_user_info','001'
COLUMN                            CELL                                                                                            
base_info:age                    timestamp=1496568160192, value=19                                                               
base_info:sex                    timestamp=1496567934669, value=female                                                           
base_info:username               timestamp=1496567889554, value=zhangsan                                                         
extra_info:career                timestamp=1496567963992, value=it                                                               
4 row(s) in 0.0770 seconds

删除数据:

删除一个kv数据

hbase(main):021:0> delete 't_user_info','001','base_info:sex'
0 row(s) in 0.0390 seconds

删除整行数据

hbase(main):024:0> deleteall 't_user_info','001'
0 row(s) in 0.0090 seconds

hbase(main):025:0> get 't_user_info','001'
COLUMN                            CELL                                                                                            
0 row(s) in 0.0110 seconds

删除整个表

hbase(main):028:0> disable 't_user_info'
0 row(s) in 2.3640 seconds

hbase(main):029:0> drop 't_user_info'
0 row(s) in 1.2950 seconds

hbase(main):030:0> list
TABLE                                                                                                                             
0 row(s) in 0.0130 seconds

=> []

Hbase重要特性

排序特性（行键）
插入到HBase中的数据，HBase会自动排序存储，排序规则：
首先看行键（RowKey），然后看（key）名 --> 按字典顺序

HBase的这个特性他跟查询效率有极大关系
比如：一张用来存储用户信息的表，有名称、户籍、年龄、职业......等信息，然后，在业务系统中经常需要：
1. 查询某个省的所有用户
2. 经常需要查询某个省的指定姓的所有用户
思路：如果能将相同省的用户在Hbase存储文件中连续存储，并且能将相同姓的用户连续存储，那么，上述查询需求效率就会很高！

做法：将查询条件拼接到 RowKey 中
HBase的表中能存储 byte[] 数据类型
此处的byte[] 包括了： rowkey,key,value,列族名,表名