大数据术语之HBase

HBase定义
    HBase是一种分布式、可扩展、支持海量数据存储的的NoSQL数据库。    
HBase和关系型数据库的区别    
    1.数据类型
    HBase只有简单的字符数据类型,所有的数据类型由用户自己处理,而关系数据库有丰富的类型和存储方式。
    2.数据操作
    HBase操作只有简单的插入、查询、删除、清空操作,表与表是分离的,没有复杂的表与表操作;而关系型数据库有各式各样的函数和表连接操作。
    3.存储模式
    HBase是基于列存储的,每个列族都由几个文件保存,不同的列族的文件时分离的;而传统的关系型数据库是基于表格结构和行模式保存的。
    4.数据维护
    HBase的更新实际是插入;而传统数据库的更新就是更新。
    5.可伸缩性
    HBase能够轻松增加或减少硬件的数量,并且对错误的兼容性比较高;而传统型关系数据库需要增加中间层才能实现类似的功能。
Master
    Master是所有RegionServer的管理者,其实现为HMaster,主要作用如下:
    1.对表的操作:create、delete、alter。
    2.对RegionServer的操作:分配regions到RegionServer,监控每个RegionServer的状态,负载均衡和故障转移。
RegionServer
    RgionServer为Region的管理者,其实现为HRegionServer,主要作用如下:
    1.对数据操作:get put delete
    2.对Region的操作:splitRegion、compactRegion
Zookeeper    
    HBase通过Zookeeper来做Master的高可用、RegionServer的监控,元数据的入口以及集群配置的维护工作。
HDFS
    HDFS为HBase提供最终的底层数据存储服务,同时为HBase提供高可用支持。
Store File
    保存实际数据的物理文件,Store File以HFile的形式存储在HDFS上,每个Store有一个或者多个Store File。数据在每个Store File中都是有序的。
MemStore
    写缓存,由于Store File要求是有序的,所以先存储在MemStore中排好序,等到刷写时机才会刷写到HFile,每次刷写都会形成一个新的。
WAL Write-Ahead-logFile
    由于数据要经过MemStore排序后才能刷写到HFile,但是把数据保存在内存中会有很高的概率导致数据丢失,为了解决这个问题,数据会先写入WAL,然后在
写入MemStore。所以在系统出现故障的时候,数据可以通过这个日志文件重建。

数据模型
NameSpace
    命名空间,默认有两个自带的命名空间HBase和default。HBase中存放的是内置表,default表使用户默认使用的命名空间。
Region
    类似于关系型数据库的表概念。不同的是HBase定义表只需要声明列族即可,不需要声明具体的列。
Row
    HBase表中的每行数据都是由一个RowKey和多个Column组成,数据是按照RowKey的字典书序存储的,并且查询数据时只能根据RowKey进行检索。
Column
    HBase中每个列都由Column Family列族和Column Qualifier列限定符进行限定。如:info:age info:name
Time Stamp
    用于标记数据的版本,每条数据写入时,如果不是定时间戳,其系统会自动加上该字段。
Cell
   由RowKey,Column Family:Column Qualifier,Time Stamp唯一确定单元,cell中没有数据类型,全是字节码形式存储。

HBase写流程
    1.Client先访问Zookeeper,获取hbase:meta位于哪一个RegionServer。
    2.访问对应的RegionServer,获取hbase:meta表,根据请求的namepace:table/rowkey,查询数据位于Region Server的哪一个region中。
    并将该table的region信息以及meta表的信息缓存在客户端的meta cache,方便下次访问。
    3.与目标RegionServer进行通信。
    4.将数据顺序写入WAL中。
    5.将数据写入对应的MemStore,数据会在MemStore进行排序。
    6.向客户端发送ack。
    7.等达到Memstore的刷写时机后,将数据写到HFile。

HBase读流程
    1.Client先访问Zookeeper,获取hbase:meta位于哪一个RegionServer。
    2.访问对应的RegionServer,获取hbase:meta表,根据请求的namepace:table/rowkey,查询数据位于Region Server的哪一个region中。
    并将该table的region信息以及meta表的信息缓存在客户端的meta cache,方便下次访问。
    3.与目标RegionServer进行通信。
    4.分别在Block Cache(读缓存),MemStore和HFile中查找数据,并将查询到的数据进行合并。
    5.从文件中查询到的数据块(Block、HFile数据存储单元,默认64KB)缓存到Block Cache中。
    6.将合并后的最中结果返回到客户端。

MemStore刷写
    1.当某个MemStore的大小达到了默认的128M,其所在region所有的MemStore都会刷写。
    2.MemeStore的总大小达到了java堆内存的0.4,会组织继续写。
    3.默认1h自动刷写。

Region Split
    默认情况下,每个Table起初只有一个Region,随着数据的不断写入,Rgion会自动拆分。刚拆分时,两个子Region都位于当前的RegionServer
但是处于负载均衡的考虑,HMaster会有可能将某个Region转移到其他的RegionServer。
    1.当一个region的某个Store下所有的StoreFile总大小超过hbase.hregion.max.filesize,就会拆分(0.94之前)。
    2.当一个region的某个Store下所有的StoreFile总大小超过Min(R^2 * "hbase.hregion.mestore.flush.size","hbase.hregion.max.filesize"),该
Region就会拆分,其中R为当前RegionServer中属于该table的个数。大集群条件下对于很多大表来说表现很优秀,但并不完美,这种策略下很多小表会在大集群中产生大量小region,分散在整个集群中。而且在发生region迁移时也可能会触发region分裂。

Store File Compaction
    Minor Compaction:会将临近的若干小文件进行合并成一个较大的HFile,但不会清理过期的和删除的数据。
    Major Compacation:会将一个Store下所有的HFile进行合并,会清理过期的和删除的数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值