hbase组合rowkey和partial key scan

最新推荐文章于 2024-07-07 00:00:00 发布

mylibrary1

最新推荐文章于 2024-07-07 00:00:00 发布

阅读量4k

点赞数

分类专栏： hbase 文章标签： hbase rowkey partial scan design

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013793650/article/details/25494539

版权

本文探讨了HBase中RowKey的组合设计以及如何进行前缀扫描。指出部分键扫描（partial key scan）实际上更适合称为前缀键扫描（prefix key scan），并且解释了中间键无法进行此类扫描的问题。提出了三种解决方案：1) 表冗余设计；2) 利用稀疏数据特性调整RowKey顺序；3) 使用FuzzyRowFilter。同时强调FuzzyRowFilter的性能取决于模糊部分的基数，并推荐使用RegexStringComparator。还建议考虑使用Phoenix框架自动化部分RowKey查询。最后，强调了HBase RowKey设计的关键点，包括减少Column Family数量和保持键长度尽可能短。

摘要由CSDN通过智能技术生成

partial key scan并没有反应其特点，应该叫prefix key scan更好些，也就是说必须作为前缀才有意义，若是中间的key，就不行了。

比如rowkey形式为<key1>-<key2>-<key3>

以key2或key3无法做partial scan。

对于该问题几种解决办法：

1）冗余。建另外一张表，以要查询的子key比如key2放在组合rowkey开始位置。

2）利用某子key数据少的特点。比如若key3数据较少，可以将其放在rowkey开始位置：<key3>-<key2>-<key1>，若有对key2的查询，可以枚举key3来依次构造key3-key2前缀进行partial scan。

参见http://stackoverflow.com/questions/12908378/hbase-searching-by-part-of-a-key

3）fuzzy row filter。

可以构建通配符形式的中间子key的scan。（但匹配key必须为固定长度）

本质上还是full scan，但是由于略过一部分数据，scan性能提到提升。---能提升多少取决于能略过多少数据，若要过滤key的集合很大对应row很多，基本上没法略过，要一一匹配，就没太大意义了。

参见http://blog.sematext.com/2012/08/09/consider-using-fuzzyrowfilter-when-in-need-for-secondary-indexes-in-hbase/

Performance of the scan based on Fuzz

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。