HBase面试题（二）

最新推荐文章于 2024-07-28 17:56:56 发布

大数据流浪法师

最新推荐文章于 2024-07-28 17:56:56 发布

阅读量373

点赞数 1

分类专栏：大数据文章标签： hbase

本文链接：https://blog.csdn.net/weixin_42072754/article/details/103590977

版权

48 篇文章 4 订阅

订阅专栏

过程:

Client先访问zookeeper，找到Meta表，并获取Meta表元数据。确定当前将要写入的数据所对应的HRegion和
HRegionServer服务器。
Client向该HRegionServer服务器发起写入数据请求。
Client先把数据写入到HLog，以防止数据丢失，然后将数据写入到Memstore。
Memstore达到阈值，会把Memstore中的数据ﬂush到Storeﬁle中
当Storeﬁle越来越多，达到一定数量时，会触发Compact合并操作，将多个小文件合并成一个大文件。
Storeﬁle越来越大，Region也会越来越大，达到阈值后，会触发Split操作，变成两个文件。

说明：hbasez 支持数据修改（伪修改），实际上是相同rowkey数据的添加。hbase只显示最后一次的添加

前提：一个region只能分配给一个region server

master记录了当前有哪些可用的region server。以及当前哪些region分配给了哪些region
server，哪些region还没有分配。
当需要分配的新的region，并且有一个region server上有可用空间时，master就给这个region
server发送一个装载请求，把region分配给这个region server。
region server得到请求后，就开始对此region提供服务。

前提：master使用zookeeper来跟踪region server状态。

当某个region server启动时，首先在zookeeper上的/hbase/rs目录下建立代表自己的znode。
master订阅了/hbase/rs目录上的变更消息，当/hbase/rs目录下的文件出现新增或删除操作时，master可以得到来自zookeeper的实时通知。因此一旦region
server上线，master能马上得到消息

前提：master使用zookeeper来跟踪region server状态。

前提：hbase集群中可以设置多个Hmaster，真正对外提供服务的只有一个

master只维护表和region的元数据，不参与表数据IO的过程，所以master下线短时间内对整个hbase集群没有影响。表的数据读写还可以正常进行。

当hmaster下线后，启动Zookeeper的选举机制，选出新的Hmaster,新的Hmaster上线，执行上线流程。

全局的memstore的ﬂush机制默认为堆总大小（多个memstore 多个region）的40%，超过该大小会触发ﬂush到磁盘的操作，会阻塞客户端读写，ﬂush将所有的memstore全部ﬂush.
单个的memstore默认为数据达到128M或1h或者数据为堆大小 0.95倍将会ﬂush.
memstore默认将会先提前ﬂush 5M.(先ﬂush一小部分，等后面数据达到阈值在ﬂush后面的数据) 这样会比一次ﬂush效率高

hbase不建议配置过多列族：过多的列族会消耗大量的内存，同时数据在ﬂush时消耗磁盘IO. 一个regionserver续写操作可用堆内存的80%，读取占用40% ，写入占用40%。这两个参数直接影响hbase读写性能。