HBase 预分区与RowKey设计

最新推荐文章于 2022-11-22 18:53:16 发布

大数据面壁者

最新推荐文章于 2022-11-22 18:53:16 发布

阅读量390

点赞数

分类专栏： hbase 文章标签： hbase

本文链接：https://blog.csdn.net/weixin_42796403/article/details/115055143

版权

hbase 专栏收录该内容

32 篇文章 0 订阅

订阅专栏

预分区

Hbase中每一个region维护着startRow与endRowKey，如果加入的数据符合某个region维护的rowKey范围，则该数据交给这个region维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高HBase性能。

手动设定预分区

HBase> create 'staff1','info','partition1',SPLITS => ['1000','2000','3000','4000']

生成16进制序列预分区

create 'staff2','info','partition2',{NUMREGIONS => 15, SPLITALGO => 'HexStringSplit'}

按照文件中设置的规则预分区

	创建splits.txt文件内容如下：
	aaaa
	bbbb
	cccc
	dddd

然后执行：

	create 'staff3','partition3',SPLITS_FILE => 'splits.txt'

使用JavaAPI创建预分区

	//自定义算法，产生一系列Hash散列值存储在二维数组中
	byte[][] splitKeys = 某个散列值函数
	//创建HBaseAdmin实例
	HBaseAdmin hAdmin = new HBaseAdmin(HBaseConfiguration.create());
	//创建HTableDescriptor实例
	HTableDescriptor tableDesc = new HTableDescriptor(tableName);
	//通过HTableDescriptor实例和散列值二维数组创建带有预分区的HBase表
	hAdmin.createTable(tableDesc, splitKeys);

RowKey设计

Hbase中一条数据的唯一标识就是rowkey，那么这条数据存储于哪个分区，取决于rowkey处于哪个一个预分区的区间内，设计rowkey的主要目的，就是让数据均匀的分布于所有的region中，在一定程度上防止数据倾斜。接下来谈一谈rowkey常用的设计方案。

生成随机数、hash、散列值

	原本rowKey为1001的，SHA1后变成：dd01903921ea24941c26a48f2cec24e0bb0e8cc7
	原本rowKey为3001的，SHA1后变成：49042c54de64a1e9bf0b33e00245660ef92dc7bd
	原本rowKey为5001的，SHA1后变成：7b61dec07e02c188790670af43e717f0f46e8913

在做此操作之前，一般我们会选择从数据集中抽取样本，来决定什么样的rowKey来Hash后作为每个分区的临界值。

字符串反转

	20170524000001转成10000042507102
	20170524000002转成20000042507102

这样也可以在一定程度上散列逐步put进来的数据。

字符串拼接

	20170524000001_a12e
	20170524000001_93i7

大数据面壁者

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
HBase 预分区与RowKey设计

预分区Hbase中每一个region维护着startRow与endRowKey，如果加入的数据符合某个region维护的rowKey范围，则该数据交给这个region维护。那么依照这个原则，我们可以将数据所要投放的分区提前大致的规划好，以提高HBase性能。手动设定预分区HBase> create 'staff1','info','partition1',SPLITS => ['1000','2000','3000','4000']生成16进制序列预分区create 'sta
复制链接

扫一扫

专栏目录