HBase简单介绍

最新推荐文章于 2024-05-24 14:15:52 发布

南风待你

最新推荐文章于 2024-05-24 14:15:52 发布

阅读量456

点赞数

分类专栏：大数据基础

本文链接：https://blog.csdn.net/Noreaday/article/details/81179336

版权

大数据基础专栏收录该内容

13 篇文章 0 订阅

订阅专栏

HBase参考资料：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-bigdata-hbase/index.html

Hbase在Hadoop中的位置：https://www.zhihu.com/question/27974418

HBase 在大数据生态圈中的位置

提到大数据的存储，大多数人首先联想到的是 Hadoop 和 Hadoop 中的 HDFS 模块。大家熟知的 Spark、以及 Hadoop 的 MapReduce，可以理解为一种计算框架。而 HDFS，我们可以认为是为计算框架服务的存储层。因此不管是 Spark 还是 MapReduce，都需要使用 HDFS 作为默认的持久化存储层。那么 HBase 又是什么，可以用在哪里，解决什么样的问题？简单地，我们可以认为 HBase 是一种类似于数据库的存储层，也就是说 HBase 适用于结构化的存储。并且 HBase 是一种列式的分布式数据库，是由当年的 Google 公布的 BigTable 的论文而生。不过这里也要注意 HBase 底层依旧依赖 HDFS 来作为其物理存储，这点类似于 Hive。

HBase跟HDFS没有必然的关系，HBASE一个是对数据关系的管理，而HDFS是对文件存储的管理，可以想象如果没有HDFS，HBASE会把用户请求的增加更新删除的数据写到一个固定的目录下，自己除了要维护数据关系外还要维护物理数据的存储和备份，mySQL等很多数据库都是这样。如果有了HDFS，HBASE就可以把要存储的数据发送到HDFS集群上，由HDFS进行分布式存储；如果说有关系，那就是HBASE利用了HDFS，HBASE基于HDFS之上。

HBase 的相关模块

接下来，我们简单的一一介绍下 HBase 中相关模块的作用。

Master

HBase Master 用于协调多个 Region Server，侦测各个 Region Server 之间的状态，并平衡 Region Server 之间的负载。HBase Master 还有一个职责就是负责分配 Region 给 Region Server。HBase 允许多个 Master 节点共存，但是这需要 Zookeeper 的帮助。不过当多个 Master 节点共存时，只有一个 Master 是提供服务的，其他的 Master 节点处于待命的状态。当正在工作的 Master 节点宕机时，其他的 Master 则会接管 HBase 的集群。

Region Server

对于一个 Region Server 而言，其包括了多个 Region。Region Server 的作用只是管理表格，以及实现读写操作。Client 直接连接 Region Server，并通信获取 HBase 中的数据。对于 Region 而言，则是真实存放 HBase 数据的地方，也就说 Region 是 HBase 可用性和分布式的基本单位。如果当一个表格很大，并由多个 CF （CF 一般用于将相关的列（Column）组合起来）组成时，那么表的数据将存放在多个 Region 之间，并且在每个 Region 中会关联多个存储的单元（Store）。

Zookeeper

对于 HBase 而言，Zookeeper 的作用是至关重要的。首先 Zookeeper 是作为 HBase Master 的 HA 解决方案。也就是说，是 Zookeeper 保证了至少有一个 HBase Master 处于运行状态。并且 Zookeeper 负责 Region 和 Region Server 的注册。其实 Zookeeper 发展到目前为止，已经成为了分布式大数据框架中容错性的标准框架。不光是 HBase，几乎所有的分布式大数据相关的开源框架，都依赖于 Zookeeper 实现 HA。

一个完整分布式的 HBase 的工作原理示意图如下：

图 3. HBase 的工作原理

在上面的图中，我们需要注意几个我们之前没有提到的概念：Store、MemStore、StoreFile 以及 HFile。带着这几个新的概念，我们完整的梳理下整个 HBase 的工作流程。

首先我们需要知道 HBase 的集群是通过 Zookeeper 来进行机器之前的协调，也就是说 HBase Master 与 Region Server 之间的关系是依赖 Zookeeper 来维护。当一个 Client 需要访问 HBase 集群时，Client 需要先和 Zookeeper 来通信，然后才会找到对应的 Region Server。每一个 Region Server 管理着很多个 Region。对于 HBase 来说，Region 是 HBase 并行化的基本单元。因此，数据也都存储在 Region 中。这里我们需要特别注意，每一个 Region 都只存储一个 Column Family 的数据，并且是该 CF 中的一段（按 Row 的区间分成多个 Region）。Region 所能存储的数据大小是有上限的，当达到该上限时（Threshold），Region 会进行分裂，数据也会分裂到多个 Region 中，这样便可以提高数据的并行化，以及提高数据的容量。每个 Region 包含着多个 Store 对象。每个 Store 包含一个 MemStore，和一个或多个 HFile。MemStore 便是数据在内存中的实体，并且一般都是有序的。当数据向 Region 写入的时候，会先写入 MemStore。当 MemStore 中的数据需要向底层文件系统倾倒（Dump）时（例如 MemStore 中的数据体积到达 MemStore 配置的最大值），Store 便会创建 StoreFile，而 StoreFile 就是对 HFile 一层封装。所以 MemStore 中的数据会最终写入到 HFile 中，也就是磁盘 IO。由于 HBase 底层依靠 HDFS，因此 HFile 都存储在 HDFS 之中。这便是整个 HBase 工作的原理简述。

南风待你

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HBase简单介绍

HBase参考资料：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-bigdata-hbase/index.htmlHbase在Hadoop中的位置：https://www.zhihu.com/question/27974418 HBase 在大数据生态圈中的位置提到大数据的存储，大多数人首先联想到的是 ...
复制链接

扫一扫

专栏目录