HBase 中存储结构

在《HBase权威指南》中看到这样一段话,对于理解HBase的物理存储是很有帮助的:
The HResionServer opens the region and creates a corresponding HRegion object. When the HRegion is opened is sets up a Store instance for each HColumnFamily for every table as defined by the user beforehand.Each Store instance can ,in turn ,have one or more StoreFile instances,which are lightweight wrappers around the actual storage file called HFile.A store also has a MemStore,and the HRegionServer a shared HLog instance.

简单的理解就是:
1.HRegion 实际上是一个Region的实例(Region是抽象概念,HRegion是实例化对象名词)
2.HRegion 中包含多个Store实例,每一个Store对应的是一个HColumnFamily.
3.每一个StoreFile包含一个MemStore和多个StoreFile,而StoreFile实际上是HFile的一个轻量级的包装
4.Store hosts a MemStore and 0 or more StoreFiles(HFiles).A Store corresponds to a column family for a table for a given region.
5.StoreFiles: are where your data lives.
6.HFile Format:is based on the SSTable file described in the BigTable paper and on Hadoop’s TFile.

HBase是一个基于Hadoop的分布式、面向列的数据库。它采用了一种分布式存储架构,可以支持海量数据的存储和高并发的访问。 HBase的分布式存储架构主要由HMaster、RegionServer和ZooKeeper组成。HMaster是HBase的主控节点,负责对整个集群进行管理和协调。它负责分配RegionServer和表的负载均衡,并监控RegionServer的状态。 RegionServer是实际存储数据的节点,每个RegionServer负责一定范围的数据区域(Region)。Region按照表的列族进行分割存储,并自动进行数据的划分和迁移,以实现数据的平衡和高可用性。每个RegionServer可以同时服务多个客户端请求,并对数据进行读写操作。 ZooKeeper是分布式协调服务,它主要用于管理和监控整个HBase集群的状态、配置信息和元数据。ZooKeeper负责维护HBase集群的一致性和可用性,通过选主机制确保HMaster的高可用性,同时协调各个RegionServer之间的通信和同步。 在HBase的分布式存储架构,数据存储在HDFS(Hadoop分布式文件系统)上,并进行分散和冗余存储,以提高系统的可靠性和容错性。HBase采用了列存储的方式,可以支持多维度的扫描和快速的随机读写操作,适用于大数据量和高并发的场景。 总结来说,HBase的分布式存储架构是基于Hadoop的、面向列的数据库系统。它通过HMaster、RegionServer和ZooKeeper等组件,实现了数据的分布式存储、负载均衡和高可用性。这种架构可以支持海量数据的存储和高并发的访问,适用于大规模数据处理和分析的场景。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值