HBase不过是用个hash算法在逻辑上拼凑的数据表而已，到底有什么厉害的地方？

众乐乐_2008

于 2024-04-08 14:23:25 发布

阅读量808

点赞数 25

分类专栏：杂说文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuruiaaa/article/details/137507813

版权

杂说专栏收录该内容

37 篇文章 0 订阅

订阅专栏

HBase不过是用个hash算法在逻辑上拼凑的数据表而已，到底有什么厉害的地方？

HBase 的核心设计理念是利用哈希算法和键值对（key-value pair）来达到高效、可扩展的大数据存储和查找。
HBase是一个分布式的、可扩展的、大规模数据存储系统，它在逻辑上是一个大大的稀疏、分布式、持久化的多维排序映射表（sorted map）。这个表以行键（Row Key）、列键（Column Key）和时间戳（Timestamp）作为键，以字节数组作为值。
但请注意，虽然它看似简单，但其涉及的技术和解决的问题要比哈希表复杂得多。它实现了自动分片、负载均衡、失败检测和恢复，提供了强大的一致性保证，并可以水平扩展到成千上万台机器，管理数PB级别的数据。
所以虽然HBase的初衷和工作方式看似简单，但它实际上是一个相当复杂且强大的大数据存储和处理系统。

Hbase的强大的一致性保证，是用什么实现的？

HBase的一致性保证主要依赖于两个关键技术：ZooKeeper和Write-Ahead Log（WAL）。
ZooKeeper：ZooKeeper是一个用于维护配置信息，提供分布式同步，以及提供组服务的分布式应用程序。HBase主要通过ZooKeeper来发现和恢复故障。例如，当某个HBase RegionServer发生故障时，ZooKeeper会立即检测到，并将这个故障信息通知到HBase Master，然后HBase Master会将这个RegionServer上的数据转移到另外一个正常的RegionServer上，从而保证服务的连续性。并且，HBase还使用ZooKeeper来维护和监控RegionServer和HBase Master节点的运行状态，以及通过ZooKeeper来进行Master选举等操作。
Write-Ahead Log（WAL）：WAL是一种日志系统，当一个数据写入操作发生时，首先会写入到WAL中，然后再更新到内存中的数据结构，最后再同步到硬盘上。这样，即使在写入过程中发生了故障（如宕机或者其他问题），也可以通过重放WAL中的日志来恢复数据，从而保证数据的一致性。
通过这两个关键技术的结合，HBase可以提供强一致性的读写操作，即任何一次写操作在成功返回后，所有的后续读操作都能读到这次写入的值，无论读请求被路由到哪个服务器。

Hbase的失败检测和恢复，是用什么实现的？

HBase的失败检测和恢复主要依赖于Apache ZooKeeper和Write-Ahead Log (WAL)两个关键组件。
Apache ZooKeeper：HBase使用Zookeeper来做集群协调和故障检测。所有RegionServer在启动后都会在ZooKeeper中创建一个临时节点，如果有RegionServer宕机或者与ZooKeeper的连接断开（比如网络故障等），这个临时节点会被自动删除。ZooKeeper通过监控这些临时节点，可以实时检测到RegionServer的故障。发现故障后，ZooKeeper会通知HMaster，然后由HMaster负责重新分配该失败RegionServer上的Region到其他正常的RegionServer上，这样就实现了失败的自动恢复。
**Write-Ahead Log (WAL)**：WAL是HBase提供数据持久性保证的关键机制，也是故障恢复的重要组件。当有新的数据写入时，首先会写到WAL中以保证数据的持久性，然后更新到位于内存中的MemStore。如果此时发生故障，如RegionServer突然宕机，那么在WAL中的记录可以用于恢复之前的写入操作。当RegionServer恢复后，可以从最后一个有效的WAL开始，重放这些日志中的操作，恢复数据到故障发生前的状态。
通过ZooKeeper和WAL的配合使用，HBase能够实现快速的故障检测和自动恢复，保证了系统的高可用性和数据的一致性。

Hbase的自动分片，是用什么实现的？

HBase的自动分片主要通过Region的自动分裂（splitting）和合并（merging）实现。
在HBase中，表的行按照Row Key排序后被划分到多个Region中，每个Region负责一段Row Key的范围。每个Region在创建时只包含一个Store（列族的物理存储单元），Store包含多个StoreFile（HFile），每个StoreFile包含多个数据块。
当表数据不断地增长，一个Region的数据量不断地增大，当其大小超过HBase设定的阈值（默认值是10GB）时，HBase会自动触发分裂操作，将这个Region分裂成两个新的Region。分裂点一般选择Region内中间的Row Key，使得两个新Region分别负责原Region的前半部分和后半部分的Row Key范围。
除了自动分裂，当两个相邻的Region数据量过小，无法有效利用硬件资源时，HBase还会触发Region的合并操作，将这两个Region合并成一个新的Region。
这种自动分片的机制，降低了人工干预，提高了系统的扩容能力和处理能力，对于快速、随机的读写访问非常有效，特别适合大规模数据的场景。同时也降低了复杂的人工切片操作，动态的调整和平衡了集群的负载。

Hbase的负载均衡，是用什么实现的？

HBase的负载均衡主要是通过Region的动态迁移和分配来实现的。
HBase使用HMaster服务器来执行多种系统任务，包括监视所有RegionServer的命令、分配Region和在一台RegionServer宕机时回收其Region。负载均衡是HMaster的一个重要职责。
HMaster根据每个RegionServer上的Region数量，以及每个Region的请求负载和数据量等信息，来决定是否需要重新分配Region。如果某个RegionServer上Region的数量或者请求负载过高，HMaster会将其中的一些Region迁移到其他负载较低的RegionServer上。反之，如果某个RegionServer上Region的数量或者请求负载过低，HMaster也会从其他RegionServer迁移一些Region到这个RegionServer上。
这种动态的Region迁移策略，可以有效地保持每个RegionServer的负载接近平衡，防止某个RegionServer成为性能瓶颈，从而最大化HBase集群的整体处理能力。
除此之外，HBase还存在更为复杂的负载均衡策略，例如基于负载或者请求的“热点”分析，对热点区域进行更为细粒度的负载均衡控制，但基本原理都是通过动态的，智能的Region迁移和分配来实现负载均衡。

Hbase水平扩展到成千上万台机器，管理数PB级别的数据，是用什么实现的？

HBase的水平扩展能力主要依赖于其底层的Hadoop Distributed File System（HDFS）和其自身的架构设计。
Hadoop Distributed File System（HDFS）：HBase将所有数据存储在HDFS上，HDFS是一个可以在普通硬件集群上运行的分布式文件系统，能有效地存储和处理PB级别的大数据。通过数据块的分布存储和数据的副本机制，HDFS提供了高容错性和大规模并行数据访问能力，使得HBase能实现数据的水平扩展。
HBase架构设计：HBase自身的架构设计也支持水平扩展。在HBase中，表的数据被分割成多个Region，每个Region负责一部分Row Key的范围，Region可以分散在集群中的任意RegionServer上。当集群需要扩展，只需增加新的RegionServer，系统会自动将一部分Region迁移到新的RegionServer上，实现负载均衡和数据扩展。通过不断增加RegionServer，HBase可以适应不断增长的数据规模和处理需求。
负载均衡和故障恢复：如前述，HBase通过动态的Region迁移和Zookeeper的故障检测以及WAL日志的恢复机制，保证了在水平扩展阶段的系统稳定性和数据一致性。
综上，通过HDFS的分布式存储，HBase的架构设计，以及配合负载均衡和故障恢复机制，HBase能够实现在成千上万台机器上进行水平扩展，有效管理数PB级别的数据。

关注

25
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。