1:hbase是什么
HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。
HBASE是Google Bigtable的开源实现,但是也有很多不同之处。比如:Google Bigtable利用GFS作为其文件存储系统,HBASE利用Hadoop HDFS作为其文件存储系统;Google运行MAPREDUCE来处理Bigtable中的海量数据,HBASE同样利用Hadoop MapReduce来处理HBASE中的海量数据;Google Bigtable利用Chubby作为协同服务,HBASE利用Zookeeper作为对应。
2:hbase组件
一个或者多个主节点,Hmaster;多个从节点,HregionServer
3:hbase原理
Client
• HBASE Client使用HBASE的RPC机制与HMaster和RegionServer进行通信
• 管理类操作:Client与HMaster进行RPC;
• 数据读写类操作:Client与HRegionServer进行RPC。
Zookeeper
• 保证任何时候,集群中只有一个master
• 存贮所有Region的寻址入口。
• 实时监控Region server的上线和下线信息。并实时通知Master
• 存储HBase的schema和table元数据
Master
• 为Region server分配region
• 负责Region server的负载均衡
• 发现失效的Region server并重新分配其上的region
• 管理用户对table的增删改操作
RegionServer
• Region server维护region,处理对这些region的IO请求,向HDFS文件系统中读写数据,是HBASE中最核心的模块。
• HRegion Server管理了很多table的分区,也就是region
写原理
clinet向hregionserver发送写请求,hregionserver将数据写到hlog上,(为了数据的持久化和恢复)再写到memstore 里面,反馈客户端写成功;当memstore数据达到64M的时候,会将memstore里面的数据冲刷到storeFile(hdfs上)上, 当storeFile达到4块或者256M的时候,Hmaster会将数据加载到本地进行合并拆分,将拆分的region分发给不同的 hregionserver管理;
HBase自动把表水平划分成多个区域(region),每个region会保存一个表 里面某段连续的数据;每个表一开始只有一 个region,随着数据不断插 入表,region不断增大,当增大到一个阀值的时候,region就会等分会 两个新的region(裂 变);当table中的行不断增多,就会有越来越多的region。这样一张完整的表 被保存在多个Regionserver上。
一个region Server包括多个region,一个region由多个store组成,一个store对应一个CF(列族),store包括位于内 存中的memstore和位于磁盘的storefile写操作先写入 memstore,当memstore中的数据达到某个阈值,hregionserver会 启动 flashcache进程写入storefile,每次写入形成单独的一个storefile,当storefile文件的数量增长到一定阈值后,系统会 进 行合并(minor、 major compaction),在合并过程中会进行版本合并和删除工作 (majar),形成更大的storefile。
读原理
- 通过zookeeper和-ROOT- .META.表定位hregionserver。
- 数据从内存和硬盘合并后返回给client
- 数据块会缓存