hbase：rowkey的设计原则

最新推荐文章于 2023-05-14 10:50:45 发布

花和尚也有春天

最新推荐文章于 2023-05-14 10:50:45 发布

阅读量624

点赞数

分类专栏： hbase 文章标签： hbase rowkey设计原则 rowkey

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38750084/article/details/104801373

版权

rowkey设计原则和方法

rowkey设计首先应当遵循三大原则：

rowkey长度原则

rowkey是一个二进制码流，可以为任意字符串，最大长度为64kb，实际应用中一般为10-100bytes，它以byte[]形式保存，一般设定成定长。

一般越短越好，不要超过16个字节，注意原因如下：

1、目前操作系统都是64位系统，内存8字节对齐，控制在16字节，8字节的整数倍利用了操作系统的最佳特性。

2、hbase将部分数据加载到内存当中，如果rowkey过长，内存的有效利用率就会下降。

rowkey散列原则

如果rowkey按照时间戳的方式递增，不要将时间放在二进制码的前面，建议将rowkey的高位字节采用散列字段处理，由程序随即生成。低位放时间字段，这样将提高数据均衡分布，各个regionServer负载均衡的几率。

如果不进行散列处理，首字段直接使用时间信息，所有该时段的数据都将集中到一个regionServer当中，这样当检索数据时，负载会集中到个别regionServer上，造成热点问题，会降低查询效率。

rowkey唯一原则

必须在设计上保证其唯一性，rowkey是按照字典顺序排序存储的，因此，设计rowkey的时候，要充分利用这个排序的特点，将经常读取的数据存储到一块，将最近可能会被访问的数据放到一块。但是这里的量不能太大，如果太大需要拆分到多个节点上去。

所以良好的rowkey设计，应当遵循三大原则，并且能让数据分散，从而避免热点问题。本节介绍几种常用的rowkey设计方法，以供同学们学习。

注意：本节理论知识较多，不过都是大数据岗位面试中常见问题，希望同学们认真研读。

1.1 加盐

这里所说的加盐并非密码学中的加盐，而是在rowkey的前面分配随机数，当给rowkey随机前缀后，它就能分布到不同的region中，这里的前缀应该和你想要数据分散的不同的region的数量有关。

为了让同学们更好的理解加盐（salting）这个rowkey设计方法。我们以电信公司为例。当我们去电信公司打印电话详单也就是通话记录。对于通话记录来说，每个人每月可能都有

最低0.47元/天解锁文章

花和尚也有春天

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hbase：rowkey的设计原则

设计RowKey时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。