Hbase架构和基础命令

一、什么是HBase?

1.1、HBase概述

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的)

1.2、HBase处理数据

HBase上的数据是以StoreFile(HFile)二进制流的形式存储在HDFS上block块中;

HDFS并不知道HBase用于存储什么,它只把存储文件认为是二进制文件,HBase的存储数据对于HDFS文件系统来说是透明的。

1.3、hbase和hdfs区别

HDFSHBase
HDFS适于存储大容量文件的分布式文件系统。HBase是建立在HDFS之上的数据库。
HDFS不支持快速单独记录查找。HBase提供在较大的表快速查找
HDFS提供了高延迟批量处理;没有批量处理概念。HBase提供了数十亿条记录,低延迟访问单个行记录(随机存取)。
HDFS提供的数据只能顺序访问。

HBase内部使用哈希表和提供随机接入,并且其存储索引,可将在HDFS文件中的数据进行快速查找。

二、HBase相关概念

2.1、分布式数据库

这些region除了最后一个理论上是一样大的,表刚建立时,表中是没有数据的,hbase只提供一个region,region随着数据变多而增大,达到阙值(128M)的时候,分裂成两个region。

hbase中的数据是字典排序

region中存储了开始数据索引和结束数据索引

2.2、稀疏性

HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格,可以视为一个“四维坐标”,即[行键, 列族, 列限定符, 时间戳]

2.3、数据模型

       表:HBase的数据同样是用表来组织的,表由行和列组成,列分为若干个列族,行和列的坐标交叉决定了一个单元格。

  行:每个表由若干行组成,每个行有一个行键作为这一行的唯一标识。访问表中的行只有三种方式:通过单个行键进行查询、通过一个行键的区间来访问、全表扫描。

  列簇:一个HBase表被分组成许多“列族”的集合,它是基本的访问控制单元。

  列修饰符(列限定符):列族里的数据通过列限定符(或列)来定位

  单元格:在HBase表中,通过行、列族和列限定符确定一个“单元格”(cell),单元格中存储的数据没有数据类型,被视为字节数组byte[]

  时间戳:每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引

2.4.1、hbase数据模型

HBase将数据存放在带有标签的中,表由行和列组成,行和列交叉确定一个单元格,单元格有版本号,版本号自动分配,为数据插入该单元格时的时间戳。单元格的内容没有数据类型,所有数据都被视为未解释的字节数组

2.4.2、Hbase数据坐标

HBase中需要根据行键、列族、列限定符和时间戳来确定一个单元格(cell),cell中的数据是没有类型的,全部是字节码形式存贮。可以视为一个“四维坐标”,即[行键, 列族, 列限定符, 时间戳]

2.4.3、HBase区域

HBase自动把表水平划分为区域(Region),每个区域都是有若干连续行构成的,一个区域由所属的表、起始行、终止行(不包括这行)三个要素来表示。 区域是HBase集群上分布数据的最小单位

三、HBase系统架构

组件介绍

HBase由三种类型的服务器以主从模式构成:

  • Region Server:负责数据的读写服务,用户通过与Region server交互来实现对数据的访问。

  • HBase HMaster:负责Region的分配及数据库的创建和删除等操作。

  • ZooKeeper:负责维护集群的状态(某台服务器是否在线,服务器之间数据的同步操作及master的选举等)。

Client

包含访问HBase的接口并维护cache来加快对HBase的访问

Zookeeper

保证任何时候,集群中只有一个master

存贮所有Region的寻址入口。

实时监控Region server的上线和下线信息。并实时通知Master

存储HBase的schema和table元数据的meta信息

Master

为Region server分配region

负责Region server的负载均衡

发现失效的Region server并重新分配其上的region

管理用户对table的增删改操作

RegionServer

Region server维护region,处理对这些region的IO请求

Region server负责切分在运行过程中变得过大的region 

HLog(WAL log):

HLog文件就是一个普通的Hadoop Sequence File,Sequence File 的Key是 HLogKey对象,HLogKey中记录了写入数据的归属信息,除了table和 region名字外,同时还包括sequence number和timestamp,timestamp是” 写入时间”,sequence number的起始值为0

HLog SequeceFile的Value是HBase的KeyValue对象,即对应HFile中的 KeyValue

Region

HBase自动把表水平划分成多个区域(region),每个region会保存一个表里面某段连续的数据;每个表一开始只有一个region,随着数据不断插 入表,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region(裂变);

Memstore 与 storefile
  1. 一个region由多个store组成,一个store对应一个CF(列簇)

  2. store包括位于内存中的memstore和位于磁盘的storefile写操作先写入 memstore,当memstore中的数据达到某个阈值,hregionserver会启动 flashcache进程写入storefile,每次写入形成单独的一个storefile

  3. 当storefile文件的数量增长到一定阈值后,系统会进行合并(minor、 major compaction),在合并过程中会进行版本合并和删除工作 (majar),形成更大的storefile。

  4. 当一个region所有storefile的大小和超过一定阈值后,会把当前的region 分割为两个,并由hmaster分配到相应的regionserver服务器,实现负载均衡。

  5. 客户端检索数据,先在memstore找,找不到再找storefile

  6. HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表 示不同的HRegion可以分布在不同的HRegion server上。

  7. HRegion由一个或者多个Store组成,每个store保存一个columns family。

  8. 每个Strore又由一个memStore和0至多个StoreFile组成。

  1、flush刷新在HDFS上呈现究竟是怎么刷新的呢??
    我们目前刚刚学习的时候,添加数据,都是一条一条的put进去,而我们在put的数据比较少(小于128M)的时候,我们put完去HDFS上并未查看到我们put的文件,这是因为数据还在内存中,也就是还在memStore中,所以要想在HDFS中查看到,我们必须手动刷新到磁盘中,这是将memStore的数据刷新到StoreFile中去,这样我们在HDFS中就可以查看到了。  
​
  2、为什么Hbase不可以使用像Mysql那样进行查询??
    首先,我们应该可以感受到,我们在插入的时候,每行数据,有多少列,列名叫什么完全是我们自己定义的,之所以不支持像MySql那样对列进行查询和操作,因为不确定列的个数和名称。
​
  3、数据最后存在HDFS上的,HDFS不支持删改,为什么Hbase就可以呢??
    这里有个思想误区,的确,数据是以HFile形式存在HDFS上的,而且HDFS的确是不支持删改的,但是为什么Hbase就支持呢?首先,这里的删除并不是真正意义上的对数据进行删除,而是对数据进行打上标记,我们再去查的时,就不会查到这个打过标记的数据,这个数据Hmaster会每隔1小时清理。修改是put两次,Hbase会取最新的数据,过期数据也是这个方式被清理。

四、HBase 2.2.7安装搭建

4.1 前期准备(Hadoop,zookeeper,jdk)

启动hadoop

start-all.sh

验证

http://master:50070

启动zookeeper(三台分别启动)

zkServer.sh start

检查状态

zkServer.sh status

4.2 搭建Hbase

1、上传解压
tar -zxvf hbase-1.4.6-bin.tar.gz
2、配置环境变量
export HBASE_HOME=/usr/local/soft/hbase-1.4.6
​
$HBASE_HOME/bin

source /etc/profile

3、修改hbase-env.sh文件

增加java配置

export JAVA_HOME=/usr/local/soft/jdk1.8.0_171

关闭默认zk配置

export HBASE_MANAGES_ZK=false
5、修改regionservers文件

如果是伪分布式版本,增加master即可

node1
node2
6、同步到所有节点(如果是伪分布式不需要同步)
scp -r hbase-2.2.7 node1:`pwd`
scp -r hbase-2.2.7 node2:`pwd`
7、启动hbase集群 , 在master上执行
start-hbase.sh
8、验证hbase
http://master:16010
9、关闭集群的命令
stop-hbase.sh

4.4 启动顺序

启动顺序
Hadoop及hbase集群启动顺序 zookeepeer -> hadoop -> hbase
​
停止顺序
Hadoop及hbase集群关闭顺序 hbase -> hadoop -> zookeepeer

4.5 重置hbase

1、关闭hbase集群
   1)杀死进程
   
   2)stop-hbase.sh
2、删除数据 hdfs
 hdfs dfs -rmr /hbase
3、删除元数据 zk
   zkCli.sh
   rmr /hbase
4、重新启动hbase
   start-hbase.sh
时间同步
yum install ntp -y
​
ntpdate -u time.windows.com

五、hbase shell

命名描述语法
help ‘命令名’查看命令的使用描述help ‘命令名’
whoami我是谁whoami
version返回hbase版本信息version
status返回hbase集群的状态信息status
table_help查看如何操作表table_help
create创建表create ‘表名’, ‘列族名1’, ‘列族名2’, ‘列族名N’
alter修改列族添加一个列族:alter ‘表名’, ‘列族名’ 删除列族:alter ‘表名’, {NAME=> ‘列族名’, METHOD=> ‘delete’}
describe显示表相关的详细信息describe ‘表名’
list列出hbase中存在的所有表list
exists测试表是否存在exists ‘表名’
put添加或修改的表的值put ‘表名’, ‘行键’, ‘列族名’, ‘列值’ put ‘表名’, ‘行键’, ‘列族名:列名’, ‘列值’
scan通过对表的扫描来获取对应的值scan ‘表名’ 扫描某个列族: scan ‘表名’, {COLUMN=>‘列族名’} 扫描某个列族的某个列: scan ‘表名’, {COLUMN=>‘列族名:列名’} 查询同一个列族的多个列: scan ‘表名’, {COLUMNS => [ ‘列族名1:列名1’, ‘列族名1:列名2’, …]}
get获取行或单元(cell)的值get ‘表名’, ‘行键’ get ‘表名’, ‘行键’, ‘列族名’
count统计表中行的数量count ‘表名’
incr增加指定表行或列的值incr ‘表名’, ‘行键’, ‘列族:列名’, 步长值
get_counter获取计数器get_counter ‘表名’, ‘行键’, ‘列族:列名’
delete删除指定对象的值(可以为表,行,列对应的值,另外也可以指定时间戳的值)删除列族的某个列: delete ‘表名’, ‘行键’, ‘列族名:列名’
deleteall删除指定行的所有元素值deleteall ‘表名’, ‘行键’
truncate重新创建指定表truncate ‘表名’
enable使表有效enable ‘表名’
is_enabled是否启用is_enabled ‘表名’
disable使表无效disable ‘表名’
is_disabled是否无效is_disabled ‘表名’
drop删除表drop的表必须是disable的 disable ‘表名’ drop ‘表名’
shutdown关闭hbase集群(与exit不同)
tools列出hbase所支持的工具
exit退出hbase shell

HBase Shell 是官方提供的一组命令,用于操作HBase。如果配置了HBase的环境变量了,就可以知己在命令行中输入hbase shell 命令进入命令行。

hbase shell

5.1 help命令

可以通过 help '命名名称'来查看命令行的具体使用,包括命令的作用和用法。 通过help ‘hbase’ 命名来查看hbase shell 支持的所有命令,hbase将命令进行分组,其中ddl、dml使用较多。

help 'list'

5.2 general 类

5.2.1 显示集群状态status

5.2.2 查询数据库版本version

5.2.3 显示当前用户与组 whoami

5.2.4 查看操作表的命令table_help

5.2.5 退出HBase Shell exit

5.3 DDL相关

5.3.1. 创建表create

注意:创建表时只需要指定列族名称,不需要指定列名。

# 语法
create '表名', {NAME => '列族名1'}, {NAME => '列族名2'}, {NAME => '列族名3'}
# 此种方式是上上面的简写方式,使用上面方式可以为列族指定更多的属性,如VERSIONS、TTL、BLOCKCACHE、CONFIGURATION等属性
create '表名', '列族名1', '列族名2', '列族名3'
​
5.3.2 修改(添加、删除)表结构Schema alter
5.3.2.1 添加一个列簇
# 语法 
alter '表名', '列族名'
​
# 示例
alter 'tbl_user', 'address'
5.3.2.2 删除一个列簇
# 语法 
alter '表名', {NAME=> '列族名', METHOD=> 'delete'}
​
alter 't1',{NAME => 'cf2', METHOD => 'delete'}
# 示例
alter 'tbl_user', {NAME=> 'address', METHOD=> 'delete'}
5.3.2.3 修改列族的属性

可以修改列族的VERSIONS、IN_MEMORY

# 修改f1列族的版本为5
alter 't1', NAME => 'f1', VERSIONS => 5
​
# 修改多个列族,修改f2为内存,版本号为5
alter 't1', 'f1', {NAME => 'f2', IN_MEMORY => true}, {NAME => 'f3', VERSIONS => 5}
​
# 也可以修改table-scope属性,例如MAX_FILESIZE, READONLY,MEMSTORE_FLUSHSIZE, DEFERRED_LOG_FLUSH等。
# 例如,修改region的最大大小为128MB:
alter 't1', MAX_FILESIZE => '134217728'
5.3.3 获取表的描述describe
# 语法 
describe '表名'
​
# 示例
describe 'tbl_user'
5.3.4 列举所有表list
5.3.5 表是否存在exists
# 语法 
exists '表名'
​
# 示例
exists 'tbl_user'

5.3.6 启用表enable和禁用表disable

通过enable和disable来启用/禁用这个表,相应的可以通过is_enabled和is_disabled来检查表是否被禁用。

# 语法
enable '表名'
is_enabled '表名'
​
disable '表名'
is_disabled '表名'
​
# 示例
disable 'tbl_user'
is_disabled 'tbl_user'
​
enable 'tbl_user'
is_enabled 'tbl_user'
5.3.7 禁用满足正则表达式的所有表disable_all
# 匹配以t开头的表名
disable_all 't.*'
# 匹配指定命名空间ns下的以t开头的所有表
disable_all 'ns:t.*'
# 匹配ns命名空间下的所有表
disable_all 'ns:.*'
5.3.8 启用满足正则表达式的所有表enable_all
enable_all 't.*'
enable_all 'ns:t.*'
enable_all 'ns:.*'
5.3.9 删除表drop

需要先禁用表,然后再删除表,启用的表是不允许删除的

# 语法
disable '表名'
drop '表名'
​
# 示例
disable 'tbl_user'
drop 'tbl_user'

直接删除报错:

先禁用后删除

5.3.10 获取rowKey所在的区 locate_region
locate_region '表名', '行键'

5.4 namespace

hbase中没有数据库的概念 , 可以使用namespace来达到数据库分类别管理表的作用

5.4.1 列举命名空间 list_namespace
5.4.2 获取命名空间描述 describe_namespace
describe_namespace 'default'
5.4.3 查看命名空间下的所有表 list_namespace_tables
list_namespace_tables 'default'
​
list_namespace_tables 'hbase'
5.4.4 创建命名空间create_namespace
create_namespace 'bigdata30'
5.4.5 删除命名空间drop_namespace
drop_namespace '命名空间名称'

5.5 DML

5.5.1 插入或者修改数据put
# 语法
# 当列族中只有一个列时'列族名:列名'使用'列族名'
put '表名', '行键', '列族名', '列值'
put '表名', '行键', '列族名:列名', '列值'
​
# 创建表
create 'users', 'info', 'detail', 'address'
​
# 第一行数据
put 'users', '1003', 'info:id', '1'
put 'users', '1003', 'info:name', '张三'
put 'users', '1003', 'info:age', '28'
put 'users', '1003', 'detail:birthday', '1990-06-26'
put 'users', '1003', 'detail:email', 'abc@163.com'
put 'users', '1003', 'detail:create_time', '2019-03-04 14:26:10'
put 'users', '1003', 'address', '上海市'
​
# 第二行数据
put 'users', '1002', 'info:id', '2'
put 'users', '1002', 'info:name', '李四'
put 'users', '1002', 'info:age', '27'
put 'users', '1002', 'detail:birthday', '1990-06-27'
put 'users', '1002', 'detail:email', 'xxx@gmail.com'
put 'users', '1002', 'detail:create_time', '2019-03-05 14:26:10'
put 'users', '1002', 'address', '北京市'
​
5.5.2 全表扫描scan
# 语法
scan '表名'
​
# 示例
scan 'users'   // 效果类似于sql语句中select * from users

扫描整个列簇

# 语法
scan '表名', {COLUMN=>'列族名'}
​
# 示例
scan 'users', {COLUMN=>'info'}

扫描整个列簇的某个列

# 语法
scan '表名', {COLUMN=>'列族名:列名'}
​
# 示例
scan 'users', {COLUMN=>'info:age'}
5.5.3 获取数据get
# 语法
get '表名', '行键'
​
# 示例
get 'users', 'xiaoming'

根据某一行某列族的数据

# 语法
get '表名', '行键', '列族名'
​
# 示例
get 'users', 'xiaoming', 'info'
5.5.4 删除某个列族中的某个列delete
# 语法
delete '表名', '行键', '列族名:列名'
​
delete 'users','xiaoming','info:age'
create 'tbl_test', 'columnFamily1'
​
put 'tbl_test', 'rowKey1', 'columnFamily1:column1', 'value1'
put 'tbl_test', 'rowKey1', 'columnFamily1:column2', 'value2'
​
delete 'tbl_test', 'rowKey1', 'columnFamily1:column1'
5.5.5 删除某行数据deleteall
# 语法
deleteall '表名', '行键'
​
# 示例
deleteall 'users', 'xiaoming'
5.5.6 清空整个表的数据truncate

先disable表,然后再drop表,最后重新create表

truncate '表名'
5.5.7 自增incr
# 语法
incr '表名', '行键', '列族:列名', 步长值
5.5.8 计数器get_counter
# 点击量:日、周、月
create 'counters', 'daily', 'weekly', 'monthly'
incr 'counters', '20240415', 'daily:hits', 1
incr 'counters', '20110101', 'daily:hits', 1
get_counter 'counters', '20110101', 'daily:hits'
5.5.9 修饰词
1、修饰词
# 语法
scan '表名', {COLUMNS => [ '列族名1:列名1', '列族名1:列名2', ...]}
​
# 示例
scan 'tbl_user', {COLUMNS => [ 'info:id', 'info:age']}
2、TIMESTAMP 指定时间戳
# 语法
scan '表名',{TIMERANGE=>[timestamp1, timestamp2]}
​
# 示例
scan 'tbl_user',{TIMERANGE=>[1551938004321, 1551938036450]}
3、VERSIONS

默认情况下一个列只能存储一个数据,后面如果修改数据就会将原来的覆盖掉

create 'tbl_test', 'columnFamily1'
describe 'tbl_test'
​
# 修改列族版本号
alter 'tbl_test', { NAME=>'columnFamily1', VERSIONS=>3 }
​
put 'tbl_test', 'rowKey1', 'columnFamily1:column1', 'value1'
put 'tbl_test', 'rowKey1', 'columnFamily1:column1', 'value2'
put 'tbl_test', 'rowKey1', 'columnFamily1:column1', 'value3'
​
# 默认返回最新的一条数据
get 'tbl_test','rowKey1','columnFamily1:column1'
​
# 返回2个
get 'tbl_test','rowKey1',{COLUMN=>'columnFamily1:column1', VERSIONS=>2}
4、STARTROW

ROWKEY起始行。会先根据这个key定位到region,再向后扫描

# 语法
scan '表名', { STARTROW => '行键名'}
​
# 示例
scan 'tbl_user', { STARTROW => 'vbirdbest'}
5、STOPROW :截止到STOPROW行,STOPROW行之前的数据,不包括STOPROW这行数据
# 语法
scan '表名', { STOPROW => '行键名'}
​
# 示例
scan 'tbl_user', { STOPROW => 'xiaoming'}
6、LIMIT 返回的行数
# 语法
scan '表名', { LIMIT => 行数}
​
# 示例
scan 'tbl_user', { LIMIT => 2 }
5.5.10 FILTER条件过滤器

过滤器之间可以使用AND、OR连接多个过滤器。

1、ValueFilter 值过滤器
# 语法:binary 等于某个值
scan '表名', FILTER=>"ValueFilter(=,'binary:列值')"
# 语法 substring:包含某个值
scan '表名', FILTER=>"ValueFilter(=,'substring:列值')"
​
# 示例
scan 'tbl_user', FILTER=>"ValueFilter(=, 'binary:26')"
scan 'tbl_user', FILTER=>"ValueFilter(=, 'substring:6')"

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值