HBase入门教程，知识点总结+面试题解析

2401_83621384

于 2024-03-20 02:53:14 发布

阅读量481

点赞数 19

分类专栏： 2024年程序员文章标签： hbase 面试 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_83621384/article/details/136860354

版权

本系列文章的整体行文思路如下：

介绍HBase数据模型
基于数据模型介绍HBase的适用场景
快速介绍集群关键角色以及集群部署建议
示例数据介绍
写数据流程
读数据流程
数据更新
负载均衡机制
HBase如何存储小文件数据

这些内容将会被拆成几篇文章。至于集群服务故障的处理机制，集群工具，周边生态，性能调优以及最佳实践等进阶内容，暂不放在本系列文章范畴内。

约定

–

本文范围内针对一些关键特性/流程，使用了加粗以及加下划线的方式做了强调，如”ProcedureV2“。这些特性往往在本文中仅仅被粗浅提及，后续计划以独立的文章来介绍这些特性/流程。
术语缩写：对于一些进程/角色名称，在本文范围内可能通过缩写形式来表述：

数据模型

RowKey

用来表示唯一一行记录的主键，HBase的数据是按照RowKey的字典顺序进行全局排序的，所有的查询都只能依赖于这一个排序维度。

通过下面一个例子来说明一下”字典排序“的原理：

RowKey {“abc”, “a”, “bdf”, “cdf”, “defg”}按字典排序后的结果为{“a”, “abc”, “bdf”, “cdf”, “defg”}

也就是说，当两个RowKey进行排序时，先对比两个RowKey的第一个字节，如果相同，则对比第二个字节，依此类推…如果在对比到第M个字节时，已经超出了其中一个RowKey的字节长度，那么，短的RowKey要被排在另外一个RowKey的前面

稀疏矩阵

参考了Bigtable，HBase中一个表的数据是按照稀疏矩阵的方式组织的，”开篇”部分给出了一张关于HBase数据表的_抽象图_，我们再结合下表来加深大家关于”稀疏矩阵”的印象：

SparseMap

看的出来：每一行中，列的组成都是灵活的，行与行之间并不需要遵循相同的列定义，也就是HBase数据表”schema-less“的特点。

Region

区别于Cassandra/DynamoDB的”Hash分区”设计，HBase中采用了”Range分区”，将Key的完整区间切割成一个个的”Key Range” ，每一个”Key Range”称之为一个Region。

也可以这么理解：将HBase中拥有数亿行的一个大表，横

最低0.47元/天解锁文章

关注

19
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
HBase入门教程，知识点总结+面试题解析

也就是HBase数据表”
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。