HBase 创建表预分区

最新推荐文章于 2023-09-06 09:21:02 发布

Nougats

最新推荐文章于 2023-09-06 09:21:02 发布

阅读量1.4w

点赞数 2

分类专栏： hbase 文章标签： hbase

本文链接：https://blog.csdn.net/Nougats/article/details/72723172

版权

本文介绍了HBase中的分区概念，包括Region的StartKey与EndKey，以及Region分裂的过程。预分区可以避免数据不均匀分布，提高IO效率。文章详细讲解了预分区的shell操作，包括指定分割点、压缩选项，并提到了官方文档关于TTL和VERSIONS的建议。预分区工具如HexStringSplit和UniformSplit可以根据不同rowkey类型选择合适的策略。

摘要由CSDN通过智能技术生成

分区

HBase中，表会被划分为1…n个Region，被托管在RegionServer中。Region二个重要的属性:StartKey与 EndKey表示这个Region维护的rowKey范围，当我们要读/写数据时，如果rowKey落在某个start-end key范围内，那么就会定位到目标region并且读/写到相关的数据。
默认地，当我们只是通过HBaseAdmin指定TableDescriptor来创建一张表时，start-end key无边界，region的size越来越大时，大到一定的阀值，就会找到一个midKey将region一分为二，成为2个region,这个过程称为分裂(region-split).而midKey则为这二个region的临界

缺点

1.总是往最大start-key的region写记录，之前分裂出来的region不会再被写数据，它们都处于半满状态
2.split是比较耗时耗资源

优点

合理设计rowkey 能让各个region 的并发请求平均分配(趋于均匀) 使IO 效率达到最高
（预分区需要将hbase.hregion.max.filesize设置一个较大的值，默认是10G（0.94.3 ）也就是说单个region 默认大小是10G）

预分区

shell

指明分割点

create 't1','f1' ,SPLITS=>['10','20','30','40']

HexStringSplit指明分割策略，-c 10指明要分割的区域数量，-f指明表中的列族，用“:”分割。

hbase org.apache.hadoop.hbase.util.RegionSplitter test_table HexStringSplit -c 10 -f f1

根据文件创建分区并压缩

create 'split_table_test',{NAME =>'cf', CO

最低0.47元/天解锁文章

Nougats

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录