HBase 创建表预分区

本文介绍了HBase中的分区概念,包括Region的StartKey与EndKey,以及Region分裂的过程。预分区可以避免数据不均匀分布,提高IO效率。文章详细讲解了预分区的shell操作,包括指定分割点、压缩选项,并提到了官方文档关于TTL和VERSIONS的建议。预分区工具如HexStringSplit和UniformSplit可以根据不同rowkey类型选择合适的策略。
摘要由CSDN通过智能技术生成

分区

HBase中,表会被划分为1…n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与 EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的数据。
默认地,当我们只是通过HBaseAdmin指定TableDescriptor来创建一张表时,start-end key无边界,region的size越来越大时,大到 一定的阀值,就会找到一个midKey将region一分为二,成为2个region,这个过 程称为分裂(region-split).而midKey则为这二个region的临界

缺点

1.总是往最大start-key的region写记录,之前分裂出来的region不会再被写数据,它们都处于半满状态
2.split是比较耗时耗资源

优点

合理设计rowkey 能让各个region 的并发请求 平均分配(趋于均匀) 使IO 效率达到最高
(预分区需要将hbase.hregion.max.filesize设置一个较大的值,默认是10G(0.94.3 ) 也就是说单个region 默认大小是10G)

预分区

shell

指明分割点

create 't1','f1' ,SPLITS=>['10','20','30','40']

HexStringSplit指明分割策略,-c 10指明要分割的区域数量,-f指明表中的列族,用“:”分割。

hbase org.apache.hadoop.hbase.util.RegionSplitter test_table HexStringSplit -c 10 -f f1

根据文件创建分区并压缩

create 'split_table_test',{NAME =>'cf', CO
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值