分布式数据库HBase

最新推荐文章于 2024-05-10 19:16:24 发布

秘境之眼

最新推荐文章于 2024-05-10 19:16:24 发布

阅读量1.4k

点赞数

分类专栏：大数据技术原理与应用

本文链接：https://blog.csdn.net/TxyITxs/article/details/104778239

版权

21 篇文章 1 订阅

订阅专栏

1.HBase 简介

1.1 HBase是BigTable的开源实现，BigTable是架构在分布式文件系统GFS之上的。

1.2 HBase的优点

1.3 HBase和BigTable底层技术的对应关系
在这里插入图片描述
1.4 HBase主要是为了满足大数据实时处理需求而开发设计的。传统关系型数据的随着数据量的增加，数据库可扩展性差，数据库效率低。

1.5 HBase数据库和传统关系型数据库的联系与区别

1.6 HBase接口：通过Java API可以访问和提供的SQL类型接口访问。
在这里插入图片描述

2.HBase 数据模型

2.1 HBase是一个稀疏的多维度的排序的映射表。
在这里插入图片描述

2.2 HBase数据的概念视图
在这里插入图片描述
HBase是一个稀疏表，很多单元可是空的。

2.3 HBase数据的物理视图
在这里插入图片描述

2.4 数据坐标
HBase可以视作一个键值数据库。
在这里插入图片描述

键值对数据如下
在这里插入图片描述
2.5 行式存储结构和列式存储结构

3.HBase 的实现原理

3.1 HBase的功能组件
在这里插入图片描述

3.2 两个核心概念表和Region
一个HBase表被划分为多个Region，随着Region逐渐增大，一个Region分裂为多个Region(物理存储位置不变)。
在这里插入图片描述

3.3 Region定位
HBase设计了三层结构来实现Region的寻址和定位。

HBase的三层结构各层次的作用
在这里插入图片描述

4.HBase运行机制

HBase的系统架构

Zookeeper服务器管理整个集群，保证集群中只有一个HMaster在运行，其他的master备用。
- Master(主服务器)：管理如下任务。
Region服务器的工作原理
- 多个Region服务器构成一个Region服务器集群，公用一个HLog。
Store的工作原理
- 用户写数据过程：分配到一个Region服务器上去执行。
- 读数据过程
- 缓存的刷新
- StoreFile的合并：StoreFile数量达到一定阈值后，引发合并操作。
- StoreFile的合并与分裂：当StoreFile越来越大时，又会引发分裂操作，一个大的Region就会分为两个Region。
HLog的工作原理：出现故障时，通过日志来恢复数据。
- Zookeeper集群检测到服务器故障，并告诉master，master就把故障机上的HLog复制过来，把HLog中属于各个Region服务器的都拆分出来，分给其他Region服务器，然后该服务器根据日志恢复数据。
- HLog公用，对数据的恢复提供了很大的便利。

5.HBase编程

5.1 HBase是建立在hadoop 上的，因此需要先启动hadoop，再启动HBase；关闭时，先关闭HBase，在关闭hadoop。

5.2 可以通过HBase自带的Zookeeper组价来为HBase提供服务。规模较大的集群建议安装Zookeeper组件来提供服务。

5.3 HBase 常用shell命令

关注