记一次 Spark批量对hbase put出现 Hbase RegionTooBusyException、over memstore limit =512.0m

最新推荐文章于 2023-01-12 14:21:29 发布

南风知我意丿

最新推荐文章于 2023-01-12 14:21:29 发布

阅读量921

点赞数

分类专栏： # Spark-Hbase 文章标签： hbase spark

本文链接：https://blog.csdn.net/Lzx116/article/details/124526440

版权

Spark-Hbase 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

项目场景：

业务场景通过Spark将hive表的一部分数据取出来通过phoenix批量对hbase做 put操作，batch设置过大，于是出现 Hbase RegionTooBusyException、over memstore limit =512.0m

问题描述

异常代码片段

Region在每次进行put时，会进行resource的检查。
默认情况下：512M = memstore(128M) * multiplier(4)

原因分析：

问题分析：

一般来说memstore超过hbase.hregion.memstore.flush.size（默认128M）,会flush形成HFile。

当写入数据过快时，导致产生大量HFile，当HFile数量超过配置hbase.hstore.blockingStoreFiles(默认10)，hbase会进行compaction(合并)，compaction会阻塞memstore flush操作，阻塞最长时长hbase.hstore.blockingWaitTime(默认值90000，即90s)，当超过该时间后，如果compaction还未完成，memstore flush也会停止阻塞。

但是正是在flush阻塞这段时间内，memstore的大小超过了上限：

hbase.hregion.memstore.flush.size*hbase.hregion.memstore.block.multiplier（默认为4）=512M，此时，region将拒绝所有写请求，所以客户端抛出RegionTooBusyException，并在一定时间后重试。

解决方案：

1.如果你和我一样写入数据量不是太多使用jdbc方式来操作phoenix的写入，那就评估一下hbase的处理速度（和集群性能有关）和put速度，适当降低写入的批次大小

2.在hbase内存允许的前提下，提高hbase.hregion.memstore.block.multiplier参数，在flush阻塞的这段时间，允许更多的数据写到memstore。

    风险：增加了regionserver oom概率，修改该参数，需要进行大数据量写入测试。

3.减少阻塞时间hbase.hstore.blockingwaittime（比如到30s），加快memstore flush到hdfs上的速度，从而减少memstore数据大小触碰到上限的时间，也就能减少拒绝写请求的时间。

    风险：1、增加了compaction的压力，

         2、占用磁盘IO，可能会影响到其他服务。

4.一般出现RegionTooBusyException，表示大量写入数据量比较大，这种场景更好的选择可能是采用bulkload导入方式。

转载请注明来源：https://blog.csdn.net/jiandabang/article/details/88704205

南风知我意丿

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
记一次 Spark批量对hbase put出现 Hbase RegionTooBusyException、over memstore limit =512.0m

项目场景：业务场景通过Spark将hive表的一部分数据取出来通过phoenix批量对hbase做 put操作，batch设置过大，于是出现 Hbase RegionTooBusyException、over memstore limit =512.0m问题描述异常代码片段Region在每次进行put时，会进行resource的检查。默认情况下：512M = memstore(128M) * multiplier(4)原因分析：问题分析：一般来说memstore超过hba
复制链接

扫一扫

专栏目录