一、基本原理
1.hbase的位置
上图描述了Hadoop 2.0生态系统中的各层结构。其中HBase位于结构化存储层,HDFS为HBase提供了高可靠性的底层存储支持, MapReduce为HBase提供了高性能的批处理能力,Zookeeper为HBase提供了稳定服务和failover机制,Pig和Hive为HBase提供了进行数据统计处理的高层语言支持,Sqoop则为HBase提供了便捷的RDBMS数据导入功能,使业务数据从传统数据库向HBase迁移变的非常方便。
2.体系图
体系图中各个组件的含义,参考:http://blog.csdn.net/carl810224/article/details/51970039/
https://www.cnblogs.com/qiaoyihang/p/6246424.html
3.基本流程
1. 写流程
1、 client向hregionserver发送写请求。
2、 hregionserver将数据写到hlog(write ahead log)。为了数据的持久化和恢复。
3、 hregionserver将数据写到内存(memstore)
4、 反馈client写成功。
2. 数据flush过程
1、 当memstore数据达到阈值(老版本默认是64M),将数据刷到硬盘,将内存中的数据删除&