HBase存储剖析与数据迁移

最新推荐文章于 2022-12-28 21:50:18 发布

爱学习的小肥猪

最新推荐文章于 2022-12-28 21:50:18 发布

阅读量151

点赞数

分类专栏： HBase

本文链接：https://blog.csdn.net/heima201907/article/details/102821229

版权

本文深入探讨了HBase的存储结构，强调RowKey的重要性，并介绍了HBase的分布式架构，包括ZooKeeper、HMaster和HRegionServer的角色。此外，文章详细阐述了HBase的数据存储、RegionServer的高可用性、日志处理、数据存储机制以及Region的自动分割策略。还提供了磁盘规划的计算公式，并分享了使用Distcp进行跨集群数据迁移的方法。

摘要由CSDN通过智能技术生成

1.概述

HBase的存储结构和关系型数据库不一样，HBase面向半结构化数据进行存储。所以，对于结构化的SQL语言查询，HBase自身并没有接口支持。在大数据应用中，虽然也有SQL查询引擎可以查询HBase，比如Phoenix、Drill这类。但是阅读这类SQL查询引擎的底层实现，依然是调用了HBase的Java API来实现查询，写入等操作。这类查询引擎在业务层创建Schema来映射HBase表结构，然后通过解析SQL语法数，最后底层在调用HBase的Java API实现。

2.内容

HBase数据库是唯一索引就是RowKey，所有的数据分布和查询均依赖RowKey。所以，HBase数据库在表的设计上会有很严格的要求，从存储架构上来看，HBase是基于分布式来实现的，通过Zookeeper集群来管理HBase元数据信息，比如表名就存放在Zookeeper的/hbase/table目录下。

2.1 Architecture

HBase是一个分布式存储系统，底层数据存储依赖Hadoop的分布式存储系统(HDFS)。HBase架构分三部分来组成，它们分别是：ZooKeeper、HMaster和HRegionServer。

ZooKeeper：HBase的元数据信息、HMaster进程的地址、Master和RegionServer的监控维护（节点之间的心跳，判断节点是否下线）等内容均需要依赖ZooKeeper来完成。是HBase集群中不可缺少的核心之一。
HMaster：HMaster进程在HBase中承担Master的责任，负责一些管理操作，比如给表分配Region、和数据节点的心跳维持等。一般客户端的读写数据的请求操作不会经过Master，所以在分配JVM内存的时候，一般32GB大小即可。
HRegionServer：HRegionServer进程在HBase中承担RegionServer的责任，负责数据的存储。每个RegionServer由多个Region组成，一个Region维护一定区间的RowKey的数据。如下图所示：

图中Region(dn2:16030)维护的RowKey范围为0001～0002。

HBase为了保证高可用性(HA)，一般都会部

最低0.47元/天解锁文章

爱学习的小肥猪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HBase存储剖析与数据迁移

1.概述HBase的存储结构和关系型数据库不一样，HBase面向半结构化数据进行存储。所以，对于结构化的SQL语言查询，HBase自身并没有接口支持。在大数据应用中，虽然也有SQL查询引擎可以查询HBase，比如Phoenix、Drill这类。但是阅读这类SQL查询引擎的底层实现，依然是调用了HBase的Java API来实现查询，写入等操作。这类查询引擎在业务层创建Schema来映射HBas...
复制链接

扫一扫

专栏目录