HBase学习第一天

最新推荐文章于 2024-08-15 14:09:45 发布

一眼就相中那个粉色小姐姐的刘小奇

最新推荐文章于 2024-08-15 14:09:45 发布

阅读量266

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40014834/article/details/106889934

版权

HBase学习指南

一、HBase简介
二、 HBase进阶

一、HBase简介

1、定义

HBase 是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。

底层使用(K-V)结构存储。

2、HBase逻辑结构

3、 HBase物理存储结构

在这里插入图片描述

4、数据模型

1）Name Space
命名空间：类似于MySQL数据库中的DataBase。每一个命名空间有多个表。自带两个命名空间，分别是“hbase”，“default”。一个是存放HBase内置的表另一个是默认存储空间。

2）Region
类似于关系型数据库的表概念。不同的是，HBase定义表时只需要声明列族即可，不需要声明具体的列。这意味着，往HBase写入数据时，字段可以动态、按需指定。因此，和关系型数据库相比，HBase能够轻松应对字段变更的场景。

3）Row
HBase表中的每行数据都由一个RowKey和多个Column（列）组成，数据是按照RowKey的字典顺序存储的，并且查询数据时只能根据RowKey进行检索，所以RowKey的设计十分重要。

4）Column
HBase中的每个列都由Column Family(列族)和Column Qualifier（列限定符）进行限定，例如info：name，info：age。建表时，只需指明列族，而列限定符无需预先定义。

5）Time Stamp
用于标识数据的不同版本（version），每条数据写入时，如果不指定时间戳，系统会自动为其加上该字段，其值为写入HBase的时间。

6）Cell
由{rowkey, column Family：column Qualifier, time Stamp} 唯一确定的单元。
cell中的数据是没有类型的，全部是字节码形式存储。

5、HBase基本架构

在这里插入图片描述

架构角色：

1）Region Server
Region Server为 Region的管理者，其实现类为HRegionServer，主要作用如下:
对于数据的操作：get, put, delete；
对于Region的操作：splitRegion、compactRegion。

2）Master
Master是所有Region Server的管理者，其实现类为HMaster，主要作用如下：
对于表的操作：create, delete, alter
对于RegionServer的操作：分配regions到每个RegionServer，监控每个RegionServer的状态，负载均衡和故障转移。

3）Zookeeper
HBase通过Zookeeper来做Master的高可用、RegionServer的监控、元数据的入口以及集群配置的维护等工作。

4）HDFS
HDFS为HBase提供最终的底层数据存储服务，同时为HBase提供高可用的支持。

二、 HBase进阶

1、架构原理

在这里插入图片描述
1）StoreFile
保存实际数据的物理文件，StoreFile以HFile的形式存储在HDFS上。每个Store会有一个或多个StoreFile（HFile），数据在每个StoreFile中都是有序的。

2）MemStore
写缓存，由于HFile中的数据要求是有序的，所以数据是先存储在MemStore中，排好序后，等到达刷写时机才会刷写到HFile，每次刷写都会形成一个新的HFile。

3）WAL
由于数据要经MemStore排序后才能刷写到HFile，但把数据保存在内存中会有很高的概率导致数据丢失，为了解决这个问题，数据会先写在一个叫做Write-Ahead logfile的文件中，然后再写入MemStore中。所以在系统出现故障的时候，数据可以通过这个日志文件重建。

2、写流程

在这里插入图片描述

写流程：

1）Client先访问zookeeper，获取hbase:meta表位于哪个RegionServer。

2）访问对应的RegionServer，获取hbase:meta表，根据读请求的namespace:table/rowkey，查询出目标数据位于哪个RegionServer中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的meta cache，方便下次访问。

3）与目标RegionServer进行通讯；

4）将数据顺序写入（追加）到WAL；

5）将数据写入对应的MemStore，数据会在MemStore进行排序；

6）向客户端发送ack；

7）等达到MemStore的刷写时机后，将数据刷写到HFile。

3、MemStore Flush

在这里插入图片描述

3.1 触发条件

1）MemStore级别
当某个MemStore的大小达到了hbase.hregion.memstore.flush.size（默认值128M），会触发MemStore的刷写。

2）HRegion级别
当Region中的MemStore的大小达到了
hbase.hregion.memstore.flush.size（默认值128M）
hbase.hregion.memstore.block.multiplier（默认值4）时，会阻止继续往该MemStore写数据。

3）HRegionServer级别
当RegionServer中MemStore的总大小达 java_heapsize * hbase.regionserver.global.memstore.size（默认值0.4）
hbase.regionserver.global.memstore.size.lower.limit（默认值0.95），
Server会按照其所有MemStore的大小顺序（由大到小）依次进行刷写。
当HRegionServer中MemStore的总大小达到
java_heapsize*hbase.regionserver.global.memstore.size（默认值0.4）
时，会阻止继续往所有的MemStore写数据。

4）HLog级别
当WAL文件的数量超过hbase.regionserver.maxlogs，region会按照时间顺序依次进行刷写，直到WAL文件数量减小到hbase.regionserver.maxlogs以下（该属性名已经废弃，现无需手动设置，最大值为32）。

5）定期刷写
到达自动刷写的时间，也会触发MemStore flush。自动刷新的时间间隔由该属性进行配置hbase.regionserver.optionalcacheflushinterval（默认1小时），指的是当前MemStore最后一次编辑时间。

6）手动刷写
用户通过shell命令“flush ‘table’”或者“flume ‘regionname’”分别对一个Region或者多个Region进行flush

4、读流程

在这里插入图片描述
读流程

1）Client先访问Zookeeper，获取hbase:meta表位于哪个Region Server。

2）访问对应的Region Server，获取hbase:meta表，根据读请求的namespace:table/rowkey，查询出目标数据位于哪个Region Server中的哪个Region中。并将该table的region信息以及meta表的位置信息缓存在客户端的meta cache，方便下次访问。

3）与目标Region Server进行通讯；

4）分别在BlockCache（读缓存），MemStore中查询目标数据，如果BlockCache中未查到相应数据则扫描对应的HFile文件，HFile中扫描到的数据写入BlockCache，并将查到的所有数据进行合并。此处所有数据是指同一条数据的不同版本（time stamp）或者不同的类型（Put/Delete）。

5）将从文件中查询到的数据块（Block，HFile数据存储单元，默认大小为64KB）缓存到Block Cache。

6）将合并后的最终结果返回给客户端。

一眼就相中那个粉色小姐姐的刘小奇

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
HBase学习第一天

HBase学习指南一、HBase简介1、定义2、HBase逻辑结构3、 HBase物理存储结构4、数据模型5、HBase基本架构二、 HBase进阶1、架构原理2、写流程3、MemStore Flush3.1 触发条件4、读流程一、HBase简介1、定义HBase 是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。底层使用(K-V)结构存储。2、HBase逻辑结构3、 HBase物理存储结构4、数据模型1）Name Space命名空间：类似于MySQL数据库中的DataBa
复制链接

扫一扫

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。