HbaseHfile合并与Region拆分

1、StoreFile Compaction(文件合并)

在这里插入图片描述
在这里插入图片描述

为什么要进行文件合并呢?
(1)原因:
由于memstore每次刷写都会生成一个新的HFile,且同一个字段的不同版本(timestamp)和不同类(Put/Delete)有可能会分布在不同的HFile中,因此查询时需要遍历所有的HFile,影响查询性能。为了减少HFile的个数,以及清理掉过期和删除的数据,会进行StoreFile Compaction。

Compaction分为两种,分别是Minor Compaction和Major Compaction
(2)Minor Compaction
会将临近的若干个较小的HFile合并成一个较大的HFile,但【不会】清理过期和删除的数据。(128M以下称为小文件,小文件达到3个时合并成一个大文件)

(3)Major Compaction
Major Compaction会将一个Store下的所有的HFile合并成一个大HFile,并且【会】清理掉过期和删除的数据。(每隔7天将所有的hfile合并成一个大文件,实际应用中一般关闭此项,自己手动Major Compaction,命令为major_compact ‘表名’,因为非常消耗性能)

2、Region Split(文件拆分)

(1)原因:
默认情况下,每个Table起初只有一个Region,随着数据的不断写入,压缩也会造成整体StoreFile变得很大,所以对于Region维度来说,会自动进行拆分。刚拆分时,两个子Region都位于当前的Region Server,但处于负载均衡的考虑,HMaster有可能会将某个Region转移给其他的Region Server。

那么问题来了,何时对文件进行拆分呢?
(2)拆分时机
0.94版本之前:
使用的是ConstantSizeRegionSplitPolicy策略
当1个region中的某个Store下所有StoreFile的总大小超过hbase.hregion.max.filesize(10G),该Region就会进行拆分。

0.94版本-2.0版本:
使用的是IncreasingToUpperBoundRegionSplitPolicy策略
当1个Region中的某个Store下所有StoreFile的总大小超过Min(R^3 * “hbase.hregion.memstore.flush.size”,hbase.hregion.max.filesize"),该Region就会进行拆分。
其中R为当前Region Server中该Region所属Table的Region个数(一个表可能分成多个Region)。

2.0版本:
使用的是SteppingSplitPolicy策略
当前RegionServer中属于该Table的Region个数为1,分裂阈值等于flushSize2,也就是(1282)M,否则为hbase.hregion.max.filesize(10G)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Geoffrey Turing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值