一图看懂 HBase 架构（全面详细）

最新推荐文章于 2025-03-12 15:57:49 发布

BigData_Hubert

最新推荐文章于 2025-03-12 15:57:49 发布

阅读量8.6k

点赞数 3

分类专栏：大数据文章标签： hbase hadoop hbase 组件架构大数据

本文链接：https://blog.csdn.net/BigData_Hobert/article/details/108362813

版权

HBase

本篇博客，为大家梳理 HBase 的组件架构和底层原理。希望能对 HBase 感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方，望指明，一起探讨，学习，进步。

HBase是 Google 的 Bigtable 开发的java版本。是一个建立在 HDFS 之上，面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式（实时读写nosql）数据库。

HBase是列式NoSql数据库。Hbase中仅支持的数据类型为byte[]；它主要用来存储结构化和半结构化的松散数据。

HBase可以理解为一个非常大的分布式HashMap，在hadoop集群的各个节点中以行主键+列族（包含列）+时间戳为键，以储存的值为值。

与hadoop一样，Hbase主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。

HBase中的表一般有这样的特点：

HBase的特点：

海量存储
Hbase适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据；同时能够达到随机读取20~100k ops/s（每秒操作次数）的速度。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性，才为海量数据的存储提供了便利。
列式存储
这里的列式存储其实说的是列族存储，Hbase是根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。需要注意的是,列族理论上可以很多，但实际上建议不要超过6个。
极易扩展
Hbase的扩展性主要体现在两个方面，一个是基于上层处理能力（RegionServer）的扩展，一个是基于存储的扩展（HDFS）。

通过横向添加RegionSever的机器，扩展的机器可以达到20000+，进行水平扩展，提升Hbase上层的处理能力，提升Hbsae服务更多Region的能力。通过横向添加Datanode的机器，进行HDFS存储层扩容，提升Hbase的数据存储能力和提升后端存储的读写能力。
高并发
由于目前大部分使用Hbase的架构，都是采用的廉价PC，因此单个IO的延迟其实并不小，一般在几IO延迟下降并不多。能获得高并发、低延迟的服务。
稀疏
稀疏主要是针对Hbase列的灵活性，在列族中，你可以指定任意多的列，在列数据为空的情况下，是不会占用存储空间的。