hbase 预分区Pre-splitting 解决热点问题

最新推荐文章于 2023-08-29 15:56:16 发布

快乐崇拜234

最新推荐文章于 2023-08-29 15:56:16 发布

阅读量976

点赞数 1

分类专栏： hbase 文章标签： hbase

本文链接：https://blog.csdn.net/liubenlong007/article/details/102922690

版权

hbase 专栏收录该内容

31 篇文章 4 订阅

订阅专栏

欢迎关注本人公众号

在这里插入图片描述

预分区

在创建表时我们可以指定分区数量及规则等信息。

最简单的方法是在创建表时指定分割点数组。请注意，将字符串文字指定为拆分点时，它们将基于字符串的基础字节表示形式创建拆分点。因此，当指定分割点“ 10”时，实际上是在指定字节分割点“ \ x31 \ 30”。

分割点将定义n + 1个区域，其中n是分割点的数量。第一个region包含从最小的可能rowkey到最大但不包括第一个分割点所有rowkey，这里之所以说最大最小是因为hbase中rowkey是有序排列的。
下一个region将包含从第一个分割点到下一个分割点的rowkey，但不包括下一个分割点的rowkey。以此类推。从最后的分割点到最大可能的rowkey将定义最后一个region。
从上面可以看到，每个region是一个闭开区间[)。

SPLITS

实例, 创建一个有4个预分区的表：

hbase(main):003:0> create 't1','f',SPLITS => ['10','20','30']
Created table t1
Took 2.9684 seconds                                                                                                                                                                                                                                                           
=> Hbase::Table - t1

请注意，第一个区域将包含从’\ x00’到’\ x30’的所有键（因为’\ x31’是’1’的ASCII码）。
在这里插入图片描述

SPLITS_FILE

还有一个方法是在文件中指定分区规则：
我们创建一个分区规则文件(注意不能有空行)：

[root@node1 hbase-2.1.5]# cat splits.txt 
10
20
30
40

然后通过文件的方式指定预分区规则

hbase(main):007:0> create 't14','f',SPLITS_FILE=>'/data/program/hbase-2.1.5/splits.txt'
Created table t14
Took 1.3536 seconds                                                                                                                                                                                                                                                           
=> Hbase::Table - t14

根据所需的区域数量和分割算法自动计算分割

# 根据随机字节键创建具有四个分region的表
hbase>create 't2','f1', { NUMREGIONS => 4 , SPLITALGO => 'UniformSplit' }

# 根据16进制键创建具有四个分region的表
hbase>create 't3','f1', { NUMREGIONS => 5, SPLITALGO => 'HexStringSplit' }

在运行过程中region会进行拆分。关于region拆分后面再写。

热点问题的解决

出现热点问题原因

hbase的中的数据是按照字典序排序的，当大量连续的rowkey集中写在个别的region，各个region之间数据分布不均衡；
创建表时没有提前预分区，创建的表默认只有一个region，大量的数据写入当前region；
创建表已经提前预分区，但是设计的rowkey没有规律可循，设计的rowkey应该由regionNo+messageId组成。

如何解决热点问题

解决这个问题，关键是要设计出可以让数据分布均匀的rowkey，与关系型数据库一样,rowkey是用来检索记录的主键。访问hbase table中的行，rowkey 可以是任意字符串(最大长度是 64KB，实际应用中长度一般为 10-100bytes)，在hbase内部，rowkey保存为字节数组，存储时，数据按照rowkey的字典序排序存储。