【HBase】HBase 数据倾斜、热点问题以及RowKey设计

最新推荐文章于 2023-08-07 18:38:59 发布

cbigchaos

最新推荐文章于 2023-08-07 18:38:59 发布

阅读量652

点赞数 2

分类专栏： # HBase

本文链接：https://blog.csdn.net/weixin_42804692/article/details/105704189

版权

HBase 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

- - 一、热点问题和数据倾斜
  - 二、预分区和rowkey设计

一、热点问题和数据倾斜

热点问题： HBase中的行是按照rowkey的字典顺序排序的，这种设计优化了scan操作，可以将相关的行以及会被一起读取的行存取在临近位置，便于scan。
rowkey设计是热点的源头。
有大量连续编号的row key ==> 大量row key相近的记录集中在个别region ==> client检索记录时,对个别region访问过多 ==> 此region所在的主机过载
==> 热点
HBase中，表会被划分为1…n个Region，被托管在RegionServer中。Region有二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围，当我们要读/写数据时，如果rowKey落在某个start-end key范围内，那么就会定位到目标region并且读/写到相关的数据。
数据倾斜： HBase可以被划分为多个Region，但是默认创建时只有一个Region分布在集群的一个节点上，数据一开始时都集中在这个Region，也就是集中在这一个节点上，就算Region存储达到临界值时被划分，其他节点的数据也是少量的。这就是数据倾斜。一条数据的唯一标识就是 RowKey，那么这条数据存储于哪个分区，取决于 RowKey 处
于哪个一个预分区的区间内，设计 RowKey 的主要目的，就是让数据均匀的分布于所有的
region 中，在一定程度上防止数据倾斜。

二、预分区和rowkey设计

预分区: 让表的数据可以均衡的分散在集群中，而不是默认只有一个region分布在集群的一个节点上。（预分区个数=节点的倍数，看数据量估算，region不足了会被分列，预分区后每个region的rowkey还是有序的）每一个 region 维护着 StartRow 与 EndRow，如果加入的数据符合某个 Region 维护的RowKey 范围，则该数据交给这个 Region 维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高 HBase 性能。

手动设定预分区

create 'staff1','info','partition1',SPLITS => ['1000','2000','3000','4000']

Rowkey设计原则:

rowkey长度原则（最好不超过16字节）
rowkey散列原则
rowkey唯一原则
1、生成随机数、hash、散列值
哈希会使同一行永远用一个前缀加盐。哈希也可以使负载分散到整个集群，但是读却是可以预测的。使用确定的哈希可以让客户端重构完整的rowkey，可以使用get操作准确获取某一个行数据。

原本rowKey为1001的，SHA1后变成：dd01903921ea24941c26a48f2cec24e0bb0e8cc7
原本rowKey为3001的，SHA1后变成：9042c54de64a1e9bf0b33e00245660ef92dc7bd
原本rowKey为5001的，SHA1后变成 ：7b61dec07e02c188790670af43e717f0f46e8913
在做此操作之前，一般我们会选择从数据集中抽取样本，来决定什么样的 rowKey 来 Hash
后作为每个分区的临界值。

2、字符串反转
反转固定长度或者数字格式的rowkey。这样可以使得rowkey中经常改变的部分（最没有意义的部分）放在前面。这样可以有效的随机rowkey，但是牺牲了rowkey的有序性。

20170524000001 转成 10000042507102
20170524000002 转成 20000042507102

3、字符串拼接

20170524000001_a12e
20170524000001_93i7

cbigchaos

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【HBase】HBase 数据倾斜、热点问题以及RowKey设计

文章目录一、热点问题和数据倾斜二、预分区和rowkey设计一、热点问题和数据倾斜热点问题： HBase中的行是按照rowkey的字典顺序排序的，这种设计优化了scan操作，可以将相关的行以及会被一起读取的行存取在临近位置，便于scan。rowkey设计是热点的源头。有大量连续编号的row key ==> 大量row key相近的记录集中在个别region ==> cl...
复制链接

扫一扫