D16 HBase数据模型/命令行/存储机制

最新推荐文章于 2022-02-04 03:28:32 发布

小于狙击手

最新推荐文章于 2022-02-04 03:28:32 发布

阅读量259

点赞数

分类专栏：学习日志

本文链接：https://blog.csdn.net/u014253445/article/details/77584664

版权

学习日志专栏收录该内容

25 篇文章 0 订阅

订阅专栏

一、Hbase的数据模型

分析Hbase的数据格式：之前讲过小米的云盘就是基于Hbase，与hive和mysql不同就是在于可以增删改查，更加方便，因此更适用于小米云盘的用户数据的增删改查。下面是Hbase的数据格式，只有明确了数据格式才会对其数据进行操作。

在Hbase中真实存储物理逻辑表格如下：

row key	time stamp	info列族1:name	info列族2 : password	info列族3	info列族4	info列族5	……	info列族n
12341	1500455547900		password:\x00\x00\x00\x0D
	1500455547899	name:wangwu1
12342	1500455547899	name:wangwu2	password:\x00\x00\x00\x0E
	1500455547898			a
……
1234n

实质上，可以看作是三维的数据表格

①row key：行键值。很显然这里完全就是一个用户的唯一ID；当新创建用户时，就会在此Hbase中创建一个row key，其子表格也就是该用户下的所有数据内容！

②time stamp：时间戳。记录每次修改的时间点，精确到毫秒ms。

③Columns Family：列族。info.即该用户的所有数据分类，可想而知列族对于一个用户来说是很多的。手机号，密码，身份证号，文件的索引信息。

④cell：即那个数据点。由 {row key, columnFamily, version} 三维唯一确定的单元。 cell 中的数据是没有类型的，全部是字节码形式存贮。

备注：

row key所代表的子表格叫做一行数据，访问行只能从rowkey出发，要想知道该用户的性别，先查到该用户。所谓的可以增删改查，并且带有时效性，就是有了时间戳，每次数据操作都有记录。

每个 cell中，不同版本的数据按照时间倒序排序，即最新的数据排在最前面。

为了避免数据存在过多版本造成的的管理 (包括存贮和索引)负担，HBASE提供了两种数据版本回收方式。一是保存数据的最后n个版本，二是保存最近一段时间内的版本（比如最近七天）。用户可以针对每个列族进行设置。例如：设置新密码的时候显示，不能使用您最近使用的密码。

for循环添加数据，认定是一同添加，时间戳一样！

列族中的参数可以不同，但是相同的话，数据更具有结构化！

通过zookeeper来查找数据，访问速度快。java客户端只配置了zookeeper的地址server02;server03！！！

二、Hbase shell常用命令

①创建新表，添加文件：

create table 'Test' , 'c1_info' , 'c2_info' , 'c3_info'

put 'testAjl' , 'row_1' , 'c1_info:a' , 'value1'

put同一个cell的数据会覆盖掉之前的数据。

创建表	create '表名', '列族名1','列族名2','列族名N'
查看所有表	list
描述表	describe ‘表名’
判断表存在	exists '表名'
判断是否禁用启用表	is_enabled '表名' is_disabled ‘表名’
添加记录	put ‘表名’, ‘rowKey’, ‘列族 : 列‘ , '值'
查看记录rowkey下的所有数据	get '表名' , 'rowKey'
查看表中的记录总数	count '表名'
获取某个列族	get '表名','rowkey','列族'
获取某个列族的某个列	get '表名','rowkey','列族：列’
删除记录	delete ‘表名’ ,‘行名’ , ‘列族：列'
删除整行	deleteall '表名','rowkey'
删除一张表	先要屏蔽该表，才能对该表进行删除第一步 disable ‘表名’ ，第二步 drop '表名'
清空表	truncate '表名'
查看所有记录	scan "表名"
查看某个表某个列中所有数据	scan "表名" , {COLUMNS=>'列族名:列名'}
更新记录	就是重写一遍，进行覆盖，hbase没有修改，都是追加

三、Hbase的体系架构

Client：包含访问HBase的接口并维护cache来加快对HBase的访问

Zookeeper：保证只有一个master；存贮所有Region的寻址入口；实时监控Region server的上线和下线信息；存储HBase的schema和table元数据

Master：为Region server分配region ；负责Region server的负载均衡；发现失效的Region server并重新分配其上的region ；管理用户对table的增删改操作。

RegionServe： Region server维护region，处理对这些region的IO请求； Region server负责切分在运行过程中变得过大的region；

HLog(WAL log)： HLog文件就是一个普通的Hadoop Sequence File，Sequence File 的Key是 HLogKey对象。

HLogKey中记录了写入数据的归属信息，除了table和 region名字外，同时还包括sequence number和timestamp，timestamp是” 写入时间”，sequence number的起始值为0，或者是最近一次存入文件系统中sequence number。

HLog SequeceFile的Value是HBase的KeyValue对象，即对应HFile中的 KeyValue

Memstore 与 storefile：一个region由多个store组成，一个store对应一个CF（列族）store包括位于内存中的memstore和位于磁盘的storefile。

写操作先写入 memstore，当memstore中的数据达到某个阈值，hregionserver会启动 flashcache进程写入storefile，每次写入形成单独的一个storefile；当storefile文件的数量增长到一定阈值后，系统会进行合并（minor、 major compaction），在合并过程中会进行版本合并和删除工作（majar），形成更大的storefile。

当一个region所有storefile的大小和超过一定阈值后，会把当前的region 分割为两个，并由hmaster分配到相应的regionserver服务器，实现负载均衡。

客户端检索数据，先在memstore找，找不到再找storefile

HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的HRegion server上。

HRegion由一个或者多个Store组成，每个store保存一个columns family。每个Strore又由一个memStore和0至多个StoreFile组成。

Region ：HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据；每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region（裂变）。regionserver来负责切分；

当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver上。

如图：StoreFile 以HFile格式保存在HDFS上。