Hbase预分区与优化

最新推荐文章于 2024-04-22 21:32:11 发布

爱学习的菜鸟罢了

最新推荐文章于 2024-04-22 21:32:11 发布

阅读量2.8k

点赞数

分类专栏：大数据 flink java 文章标签： hbase 数据库 database

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34387470/article/details/120895899

版权

本文介绍了HBase的预分区策略，包括salting、Hashing和reverse key方法，以解决热点问题。预分区有助于分散读写负载，提高性能。此外，文章还讨论了HBase的Get和Scan操作、行键设计原则以及读性能优化。

摘要由CSDN通过智能技术生成

Hbase支持两种读读操作，Scan & Get两种，Get在hbase的内部也是会转换成startRow == endRow的操作，所以本文就只介绍Get操作。

Scan的实际执行者是RegionScannerImpl ，下面是一张整体ScannerImpl的调用图

关于Scan的参数：

Get和Scan其实是同一操作，get是startRow==endRow的Scan，不过在判断stopRow的时候会考虑stop的闭区间。

RegionScannerImpl内部保存所有的StoreScanner也是放在一个KeyValueHeap中，但是由于每个Scanner处于一个family，所以统一rowkey的话，一个StoreScanner中的Cell会一直保持较大/较小的排序，所以在这里可以每次heap.top一个scanner，然后批量取result。

batch，这个表示每次取出的同一rowkey下的Cell数量限制，默认是-1，不限制，取出这个rowkey下的所有Cell(但是family中有个配置可以限制这个的最大值)，按照Cell的排序从小到大，知道limit为止，一个family没取够，下一个family继续。所以如果batch较小，可能会在client端一行数据返回两个Result。

Filter的行过滤、reset在这里体现，若是被过滤掉了且未到stopRow，则继续读下一行

Get是一次性的调用一个next(result.limit),scan是调用多次返回多个result返回给client

Scan开始之间会根据定义从region.mvcc中去除readpoint

Get：

按照RowKey获取唯一一条记录。get的方法处理分两种：设置了ClosestRowBefore和没有设置ClosestRowBefore的RowLock。

Scan：

按照指定的条件获取一批记录。

可以通过setCaching和setBatch方法提高速度；
可以通过setStartRow与setEndRow来限定范围；
可以通过setFilter方法添加过滤器，这也是分页、多条件查询的基础；

1. Hbase设计七大原则

1.1）每个region的大小应该控制在10G到50G之间；

1.2）一个表最好保持在 50到100个 region的规模；

1.3）每个cell最大不应该超过10MB

如果超过，应该有些考虑业务拆分，如果实在无法拆分，那就只能使用mob；

1.4）我们设置一个列族

1.5）列族名必须尽量短

因为我们知道在存储的时候，每个keyvalue都会包含列族名；

1.

最低0.47元/天解锁文章

爱学习的菜鸟罢了

关注

0
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爱学习的菜鸟罢了

CSDN认证博客专家 CSDN认证企业博客

码龄9年

91: 原创

6万+: 周排名

172万+: 总排名

16万+: 访问

: 等级

1369: 积分

153: 粉丝

109: 获赞

19: 评论

689: 收藏

私信

关注

热门文章

分类专栏

大数据 65篇
flink 56篇
搜广推 30篇
工具 1篇
数学 1篇
算法 2篇
java 32篇
元宇宙与ai 1篇
clickhouse 1篇
网络 1篇
linux 1篇

最新评论

计算广告（七）
weiwuxian1015: 我没看太懂。。。我是产品。。。这是写给技术的吧虽然没看太懂但是感觉逻辑清晰点个赞
手推A Unified Solution to Constrained Bidding in Online Display Advertising论文
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616445653?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
Flink 常见问题排查与任务调优实践
qq_40713505: Caused by: org.apache.flink.util.FlinkException: Could not upload job files. Caused by: java.io.IOException: Could not connect to BlobServer at address localhost/127.0.0.1:33245 大佬我log里出现这个错误是什么原因呢？
Flink三种提交方式
有敌小胖子: 额大佬请问下这两种模式可以一起使用吗？比如提交flink任务a使用per模式，提交flink任务b使用application模式这个会冲突吗？
Flink 1.12 状态与容错
黑眼圈@~@: 抄袭的官网。搬运工啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。