HBase学习笔记

最新推荐文章于 2024-03-05 20:15:16 发布

Bingmous

最新推荐文章于 2024-03-05 20:15:16 发布

阅读量164

点赞数

分类专栏： HBase

本文链接：https://blog.csdn.net/weixin_37680513/article/details/107640845

版权

HBase 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第1章 HBase 简介

HBase定义：HBase 是一种分布式、可扩展、支持海量数据存储的NoSQL 数据库。

HBase 数据模型

逻辑上是一张表，底层物理存储是kv

HBase 逻辑结构：row_key（逻辑上一行的key），列族（column family），列（column qualifier），region（将高表进行横向切分），cell（每个rowkey中每个列族下的列和其值为一个cell）
- row_key唯一，是每行数据的key；可以有多个列族（目录）；每个列族内有多个列，列也是数据信息；每个row_key的数据可以拥有不同的列，所以说列也是数据；row_key很多时会将数据划分成不同的region存储（目录），每个region内有所有的列族，每个列族目录下有切分的数据
HBase 物理存储结构：逻辑上一个row_key有多个cell，存储时row_key和每一个cell为一行数据，存储为storeFile，存储时会有：row_key，column family，column qualifier，timestamp，type，value
- timestamp：每个值的版本根据timestamp确定，type为其类型，对于删除操作有delete、deleteCoumn、deleteFamily，value为cell的值
数据模型：
- NameSpace：类似于数据库，每个命名空间下有多个表，HBase有两个自带的：hbase和default
- Region：类似于表的概念，定义表时只需要声明列族，列（字段）可以动态的改变
- Row：表中每一行数据都有一个row_key和多个列组成，数据安装row_key的字典顺序存储，查询时只能按照rowkey查询
- Column：每个列由列族和列限定符进行限定
- TimeStamp：用于标识不同的版本
- Cell：rowkey，column family，column qualifier，timestamp唯一确定的单元，cell中数据没有类型，全部以字节码存储

基本架构

region server：region的管理者，每个节点是一个region server。实现类HRegionServer，主要作用是对数据（get，put，delete）和region（splitRegion、compactRegion）的操作
master：所有region server的管理者，实现类HMaster，主要作用是对表的操作（create，delete，alter元数据），对region server的操作（分配regions到每个region server，监控region server的状态，负载均衡和故障转移）
zookeeper：做master的高可用，region server的监控，元数据的入口，集群配置的维护
hdfs：提供底层存储

第2章 HBase快速入门

HBase安装部署

zk正常部署：bin/zkServer.sh start，单节点启动，使用脚本zk.sh start集群启动
hadoop正常部署：sbin/start-dfs.sh，sbin/start-yarn.sh
hbase：解压，修改hbase-env.sh，hbase-site.xml，regionservers
软连接hadoop配置文件到 HBase，core-site.xml，hdfs-site.xml
分发，启动：start-hbase.sh，关闭：stop-hbase.sh

HBase Shell操作

基本操作

进入客户端：bin/hbase shell
查看帮助命令：help
查看所有表：list

表的操作

创建表：create
插入数据：put
扫描表：scan
查看表结构：describe
更新指定字段的数据：get
查看指定行或指定列族:列的数据：get
统计表数据行数：count
删除数据：delete（删除某一列，）、deleteall（删除rowkey的所有数据）、truncate（清空表数据，配置也没了！）
删除表：diable、drop
变更表信息：alter

第3章 HBase 进阶

架构原理

storeFile：实际存储的物理文件，表目录 -- region目录 -- 多个列族目录 -- 多个storeFile，有序的HFile格式文件
MemStore：写缓存，数据线存储在MemStore中，排序后到达刷写时机写到HFile
WAL：数据先写都Write-Ahead-Logfile中，再写到MemStore中，系统出现故障时可以通过这个日志文件重建（源码中先写到内存在写到WAL，但是trycatchfinally保证了WAL和内存中数据一致，如果没有写入WAL成功，会回滚）

写流程

client先访问zk，获取hbase:meta表位与哪个region server
访问对应的region server，获取hbase:meta表，根据请求的namespace:table/rowkey查询出在哪个region server，并缓存table的region信息到客户端的meta cache方便下次访问
与目标region server通信
将数据写入wal
将数据写入对应的memstore，数据在memstore按rowkey排序
向客户端发送ack
等待memstore刷写时机，将数据刷写到HFile

MemStore Flush

某个memstore的大小到达128M，其所在region的所有memstore都会刷写；当达到了128*4会阻止往memstore写
当region server中所有memstore总大小到达heap_size*0.4*0.95，region server会按照memstore的大小排序，依次刷写；当达到了heap_size*0.4会阻止网memstore写
到达自动刷写时间，也会触发memstore flush，默认1个小时

读流程

client先访问zk，获取hbase:meta表位与哪个region server
访问对应的region server，获取hbase:meta表，根据请求的namespace:table/rowkey查询出在哪个region server，并缓存table的region信息到客户端的meta cache方便下次访问
与目标region server通信
分别在block cache，memstore，和storeFile查询目标数据，并进行合并
将查询到的数据块缓存到block cache
将合并后的结果返回给客户端