大数据学习之 HBase 原理学习（一）

最新推荐文章于 2024-03-19 11:56:58 发布

从北码到南

最新推荐文章于 2024-03-19 11:56:58 发布

阅读量143

点赞数

分类专栏：数据仓库大数据 Java应用与设计文章标签： HBase java 云服务数据仓库

本文链接：https://blog.csdn.net/weixin_36079865/article/details/102854293

版权

19 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

Client 访问 zk ，根据 ROOT 表获取 meta表所在的Region的位置信息，并将该位置信息写入 Client Cache，（将元数据，Region位置预读取到 Client Cache 中，可以加快查询）
Client 读取 meta 表，再根据 meta 表中查询得到的 Namespace、表名、RowKey等相关信息，获取将要写入Region的位置信息，最终client端会将meta 表写入Client Cache。
HBase使用memstore和storefile存储对表的更新操作，数据在更新的时候首先写入hlog和memstore，memstore是排序的
当memstore积累到一定的阈值时，就会创建一个新的memstore，并将老的memstore加入flush队列，由单独的线程的flush到磁盘上成为一个StoreFile，系统zookeeper中记录一个checkpoint，表示这个时刻之前的数据变更已经持久化，发生故障只需要恢复到checkpoint的数据，StoreFile是只读的，一旦创建就不可修改，当一个store的storefile达到一定的阈值后，就会进行一次合并操作，将对同一个key的修改合并到一起，同时进行版本合并和数据删除，形成一个大的storefile，当storefile的大小达到一定阈值后，又会对storefile进行切分操作，等分为两个storefile
HBase中只有添加数据，所有的更新和删除都是在后续的合并中进行的，使得用户的写操作只要进入内存就可以立刻返回，实现HBase的高速存储

HMaster	1. 负责管理 HBase 的元数据，表结构， 2. 表的 Region 信息负责表的创建，删除和修改 3. 负责HRegionServer分配Region，分配后将元数据写入相应的位置
HRegionServer	1. 含有多个 HRegion 2. 处理 Client 端的读写请求(根据HMaster返回的元数据找到对应的HRegionServer) 3. 管理 Region 的 Split分裂、StoreFile 的 Compaction合并
HRegion	1. 一个 HRegion 里会有1到多个Store 2. HRegionServer 维护一个HLog 3. HRegion 是分布式存储和负载的最小单元 4. 表通常被保存在多个 HRegionServer 的多个 Region 中
Store	1. Store 是存储在磁盘的最小单元，由于内存中的MemStore和磁盘中的若干StoreFile组成 2. 一个 Store 里会有一个或多个StoreFile 和一个MemStore 3. 每个Store存储一个列族
Zookeeper	1. 分布式管理服务，来维护集群中所有服务的状态，（一致性协议至少要三台以上的实例）