HBase中数据落地到磁盘的几个时刻

最新推荐文章于 2022-04-06 15:36:12 发布

b1gx

最新推荐文章于 2022-04-06 15:36:12 发布

阅读量626

点赞数

分类专栏： HBase 文章标签： hbase flush memstore

本文链接：https://blog.csdn.net/qq_40727267/article/details/103969777

版权

HBase 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

HBase的数据都是先写到memstore中，然后才会flush到磁盘，那么什么时候会触发memstore的flush？

一、从memstore来看

当一个region的memstore中缓存的数据达到memstore的大小时，会触发memstore级别的flush操作。memcache的size由参数hbase.hregion.memstore.flush.size指定，默认是128M。一般需要将该值调大，但并非越大越好。

二、从region来看

当region所有的memstore的size之和达到参数hbase.hregion.memstore.block.multipiler * hbase.hregion.memstore.flush.size的值时会触发flush。参数默认值分别为4和5242880。当需要调整这两个参数的时候，一般选择调整后一个参数，不动第一个。region级别的flush一般很少发生，因为Column Family的数量一般不会超过三个（经验值），所以正常情况下，达不到上述两个参数的乘积。

三、从regionserver来看

当regionserver所有的memstore缓存的数据的大小之和超过低水位线时，将会触发flush操作，且先从memstore最大的region开始flush，以此类推，直到下降到低水位线之下。
如果regionserver所有的memstore缓存的数据大小之和超过高水位线，那么reginserver将会阻塞读写，并强制flush

相关参数
hbase.regionserver.global.memstore.size 默认值 0.40（百分比）
hbase.regionserver.global.memstore.size.lower.limit 0.95 （百分比）

高水位的值为：heapsize（堆内存）* hbase.regionserver.global.memstore.size
低水位的值为：heapsize（堆内存）* hbase.regionserver.global.memstore.size * hbase.regionserver.global.memstore.size.lower.limit
一般堆内存大小不超过32GB，否则指针压缩就失效了

四、从WAL看

WAL的大小为hbase.regionserver.hlog.blocksize * hbase.regionserver.maxlogs决定，达到这个值之后，就会触发flush。2.0之后，hbase.regionserver.hlog.blocksize的默认值由一个HDFS 的block大小变为HDFS block的大小的两倍了。
一般需要略大于hbase.regionserver.global.memstore.upperLimit * HBASE_HEAPSIZE，避免WAL频繁的触发flush。一般调大hbase.regionserver.maxlogs的值，默认是32

五、定期flush

参数hbase.regionserver.optionalcacheflushinterval默认值1h；设置为0表示禁止自动flush；

六、手动flush

使用 flush 'tablename' 或者 flush 'regionname'对一张表或者一个region进行flush，region的名字可以在web界面看到

b1gx

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
HBase中数据落地到磁盘的几个时刻

HBase的数据都是先写到memstore中，然后才会flush到磁盘，那么什么时候会触发memstore的flush？一、从memstore来看当一个region的memstore中缓存的数据达到memstore的大小时，会触发memstore级别的flush操作。memcache的size由参数hbase.hregion.memstore.flush.size指定，默认是128M。一般需要...
复制链接

扫一扫

专栏目录