大数据术语之HBase

最新推荐文章于 2022-05-26 18:09:31 发布

开封程序员阿强

最新推荐文章于 2022-05-26 18:09:31 发布

阅读量463

点赞数

分类专栏：大数据术语篇章文章标签： hbase

本文链接：https://blog.csdn.net/qq_30003943/article/details/122439391

版权

大数据术语篇章专栏收录该内容

12 篇文章 0 订阅

订阅专栏

HBase定义
   HBase是一种分布式、可扩展、支持海量数据存储的的NoSQL数据库。
HBase和关系型数据库的区别
   1.数据类型
   HBase只有简单的字符数据类型，所有的数据类型由用户自己处理，而关系数据库有丰富的类型和存储方式。
   2.数据操作
   HBase操作只有简单的插入、查询、删除、清空操作，表与表是分离的，没有复杂的表与表操作；而关系型数据库有各式各样的函数和表连接操作。
   3.存储模式
   HBase是基于列存储的，每个列族都由几个文件保存，不同的列族的文件时分离的；而传统的关系型数据库是基于表格结构和行模式保存的。
   4.数据维护
   HBase的更新实际是插入；而传统数据库的更新就是更新。
   5.可伸缩性
   HBase能够轻松增加或减少硬件的数量，并且对错误的兼容性比较高；而传统型关系数据库需要增加中间层才能实现类似的功能。
Master
   Master是所有RegionServer的管理者，其实现为HMaster,主要作用如下：
   1.对表的操作：create、delete、alter。
   2.对RegionServer的操作：分配regions到RegionServer，监控每个RegionServer的状态，负载均衡和故障转移。
RegionServer
   RgionServer为Region的管理者，其实现为HRegionServer,主要作用如下：
   1.对数据操作：get put delete
   2.对Region的操作：splitRegion、compactRegion
Zookeeper
   HBase通过Zookeeper来做Master的高可用、RegionServer的监控，元数据的入口以及集群配置的维护工作。
HDFS
   HDFS为HBase提供最终的底层数据存储服务，同时为HBase提供高可用支持。
Store File
   保存实际数据的物理文件，Store File以HFile的形式存储在HDFS上，每个Store有一个或者多个Store File。数据在每个Store File中都是有序的。
MemStore
   写缓存，由于Store File要求是有序的，所以先存储在MemStore中排好序，等到刷写时机才会刷写到HFile，每次刷写都会形成一个新的。
WAL Write-Ahead-logFile
   由于数据要经过MemStore排序后才能刷写到HFile，但是把数据保存在内存中会有很高的概率导致数据丢失，为了解决这个问题，数据会先写入WAL，然后在
写入MemStore。所以在系统出现故障的时候，数据可以通过这个日志文件重建。

数据模型
NameSpace
   命名空间，默认有两个自带的命名空间HBase和default。HBase中存放的是内置表，default表使用户默认使用的命名空间。
Region
   类似于关系型数据库的表概念。不同的是HBase定义表只需要声明列族即可，不需要声明具体的列。
Row
   HBase表中的每行数据都是由一个RowKey和多个Column组成，数据是按照RowKey的字典书序存储的，并且查询数据时只能根据RowKey进行检索。
Column
   HBase中每个列都由Column Family列族和Column Qualifier列限定符进行限定。如：info:age info:name
Time Stamp
   用于标记数据的版本，每条数据写入时，如果不是定时间戳，其系统会自动加上该字段。
Cell
由RowKey,Column Family:Column Qualifier,Time Stamp唯一确定单元，cell中没有数据类型，全是字节码形式存储。

HBase写流程
   1.Client先访问Zookeeper，获取hbase:meta位于哪一个RegionServer。
   2.访问对应的RegionServer，获取hbase:meta表，根据请求的namepace:table/rowkey，查询数据位于Region Server的哪一个region中。
   并将该table的region信息以及meta表的信息缓存在客户端的meta cache，方便下次访问。
   3.与目标RegionServer进行通信。
   4.将数据顺序写入WAL中。
   5.将数据写入对应的MemStore，数据会在MemStore进行排序。
   6.向客户端发送ack。
   7.等达到Memstore的刷写时机后，将数据写到HFile。

HBase读流程
   1.Client先访问Zookeeper，获取hbase:meta位于哪一个RegionServer。
   2.访问对应的RegionServer，获取hbase:meta表，根据请求的namepace:table/rowkey，查询数据位于Region Server的哪一个region中。
   并将该table的region信息以及meta表的信息缓存在客户端的meta cache，方便下次访问。
   3.与目标RegionServer进行通信。
   4.分别在Block Cache(读缓存)，MemStore和HFile中查找数据，并将查询到的数据进行合并。
   5.从文件中查询到的数据块（Block、HFile数据存储单元，默认64KB）缓存到Block Cache中。
   6.将合并后的最中结果返回到客户端。

MemStore刷写
   1.当某个MemStore的大小达到了默认的128M，其所在region所有的MemStore都会刷写。
   2.MemeStore的总大小达到了java堆内存的0.4，会组织继续写。
   3.默认1h自动刷写。

Region Split
   默认情况下，每个Table起初只有一个Region，随着数据的不断写入，Rgion会自动拆分。刚拆分时，两个子Region都位于当前的RegionServer
但是处于负载均衡的考虑，HMaster会有可能将某个Region转移到其他的RegionServer。
   1.当一个region的某个Store下所有的StoreFile总大小超过hbase.hregion.max.filesize，就会拆分（0.94之前）。
   2.当一个region的某个Store下所有的StoreFile总大小超过Min(R^2 * "hbase.hregion.mestore.flush.size","hbase.hregion.max.filesize")，该
Region就会拆分，其中R为当前RegionServer中属于该table的个数。大集群条件下对于很多大表来说表现很优秀，但并不完美，这种策略下很多小表会在大集群中产生大量小region，分散在整个集群中。而且在发生region迁移时也可能会触发region分裂。

Store File Compaction
Minor Compaction:会将临近的若干小文件进行合并成一个较大的HFile,但不会清理过期的和删除的数据。
Major Compacation：会将一个Store下所有的HFile进行合并，会清理过期的和删除的数据。

开封程序员阿强

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据术语之HBase

HBase定义 HBase是一种分布式、可扩展、支持海量数据存储的的NoSQL数据库。 HBase和关系型数据库的区别 1.数据类型 HBase只有简单的字符数据类型，所有的数据类型由用户自己处理，而关系数据库有丰富的类型和存储方式。 2.数据操作 HBase操作只有简单的插入、查询、删除、清空操作，表与表是分离的，没有复杂的表与表操作；而关系型数据库有各式各样的函数和表连接操作。 3.存储模式 HBase是基于列存储的，每个列族都由几...
复制链接

扫一扫

专栏目录