hbase预分region方法

最新推荐文章于 2023-09-05 16:49:46 发布

lhxsir

最新推荐文章于 2023-09-05 16:49:46 发布

阅读量640

点赞数

分类专栏： hbase

本文链接：https://blog.csdn.net/lhxsir/article/details/113932245

版权

hbase 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

hbsae表使用VIN（车架号每个车辆唯一的编号 17位）
作为rowkey，但是VIN分布并不均匀，因此在数据量很大的时候需要考虑自定义预分region间隔区间：

use asmp;
select sub,count(1) n from (select substring(vin,1,5) as sub from tt_repair_deed_tmp where partition_brand='vw') a
group by sub order by n desc

select sub,count(1) n from (select substring(vin,1,7) as sub from tt_repair_deed_tmp where partition_brand='vw') a
group by sub order by n desc

select sub,count(1) n from (select substring(vin,1,9) as sub from tt_repair_deed_tmp where partition_brand='vw') a
group by sub order by n desc

select sub,count(1) n from (select substring(vin,1,11) as sub from tt_repair_deed_tmp where partition_brand='vw') a
group by sub order by n desc

按照4位划分region
在这里插入图片描述

按照5位划分region

按照7位划分region

按照9位划分region

正常来说有多少region会产生多少reduce，如果reduce太多占用资源也会很多，因此选择按照5位划分region。

然后自定义vin_split文件

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lhxsir

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hbase预分region方法

hbsae表使用VIN（车架号每个车辆唯一的编号 17位）作为rowkey，但是VIN分布并不均匀，因此在数据量很大的时候需要考虑自定义预分region间隔区间：use asmp;select sub,count(1) n from (select substring(vin,1,5) as sub from tt_repair_deed_tmp where partition_brand='vw') agroup by sub order by n descselect sub,count(
复制链接

扫一扫