Hbase RowKey设计以及HBase数据倾斜问题

K. Bob

于 2019-12-19 12:46:25 发布

阅读量948

点赞数

分类专栏： HBase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ThreeAspects/article/details/103610892

版权

本文介绍了HBase中RowKey的设计原则，包括唯一性、排序、散列和长度原则，并详细讨论了数据倾斜问题，提出了预分区和RowKey设计实战策略，如反转、加盐和Hash散列来解决热点问题。此外，还分享了实际应用场景中的RowKey设计方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作为Nosql数据库的一员，HBase查询只能通过其rowkey来查询(rowkey用来表示唯一一行记录)，HBase中的数据是按照rowkey的ASCII字典顺序进行全局排序的。HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。
HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有以下几种方式：

通过get方式（org.apache.hadoop.hbase.client.Get），指定rowkey获取唯一一条记录
通过scan方式（org.apache.hadoop.hbase.client.Scan），设置startRow和stopRow参数进行范围匹配
全表扫描，即直接扫描整张表中所有行记录

get：
按照RowKey获取唯一一条记录。get的方法处理分两种：设置了ClosestRowBefore和没有设置ClosestRowBefore的RowLock。主要用来保证行的事务性，即每个get是以一个row来标记的。

scan：
按照指定的条件获取一批记录。实现条件查询功能使用的就是scan方式，scan在使用时有以下几点值得注意：

scan可以通过setCach与setBatch方法提高速度（以空间换时间）
scan可以通过setStartRow与setEndRow来限定范围。范围越小，性能越高。通过巧妙的RowKey设计使我们批量获取记录集合中的元素挨在一起（应该在同一个Region下），可以在遍历结果时获得很好的性能
scan可以通过setFilter方法添加过滤器，这也是分页、多条件查询的基础

补充：Hbase列族怎么创建比较好
一个列族在数据底层是一个文件，所以将经常一起查询的列放到一个列族中，列族尽量少，减少文件的寻址时间。

Rowkey设计原则

Rowkey设计应遵循以下原则：
【1】Rowkey的唯一原则
由于在HBase中数据存储是Key-Value形式，若HBase中同一表插入相同Rowkey，则原先的数据会被覆盖掉(如果表的version设置为1的话)，所

最低0.47元/天解锁文章

博客等级

码龄6年

294
原创

166
点赞

782
收藏

80
粉丝

关注

私信

热门文章

分类专栏

HBase 14篇
技术博客看后摘录
Java 53篇
云计算 6篇
Spark 34篇
好书沉淀
Linux 5篇
Hadoop 20篇
Kafka 13篇
OPS 8篇
计算机网络 12篇
算法 28篇
Redis 12篇
大数据 12篇
Zookeeper 12篇
Hive 23篇
MySQL 24篇
Flink 2篇
Utils 2篇
Flume 4篇
Yarn 4篇
Git 1篇
Elastic Search 3篇
Storm 4篇

展开全部收起

上一篇：: MapReduce工作流程分析

下一篇：: LeetCode——二叉树

最新评论

Hive拉链表、快照表
momo伞: 请问拉链表实现方式1中，INSERT OVERWRITE TABLE dws.user_his ，插入2017-01-01—2017-01-01的数据及2017-01-02—9999-12-31的数据，那么原来2017-01-01—9999-12-31的数据如何处理？在文中没看到处理方法，可能是我没理解到位，求指点下，谢谢！！！！
Token解析
自有我自为之: 写的是个屁，瞎写，token和session没一点关系。客户端的token保存在cookie或者localStorage，服务器端的token保存在磁盘数据库中（token活跃时放在redis中）
Hive的内置函数parse_url_tuple/lateral view/explode
龙猫爱乱跑～: parse_url_tuple是不是hive on spark不支持
MySQL存储底层原理
有为青年·沃迪奥·力马德: innodb 会对主键建立索引，如果没有指定主键，将对一个唯一索引建立索引，如果没有唯一索引，将隐式指定一个主键并为之建立索引，索引的索引将组织成b+tree形成所谓的聚簇索引。
云架构
Cdf（人名）: 好文章，学习了

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。