一、HBase简介
HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统。
HBase是Apache的Hadoop项目的子项目,HBase不同与一般的关系数据库,它适合于结构化数据存储的数据库,且HBase基于列而非基于行的模式。
HBase——Hadoop Database,分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce处理HBase的海量数据,利用Zookeeper作为协同服务。
HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供高性能的计算能力,Zookeeper为HBase提供稳定服务和failover机制。Pig和Hive为HBase提供高层语言支持,是的在HBase上进行数据统计处理变简单。Sqoop为HBase提供方便的RDBMS数据导入功能,使传统数据库数据向HBase选中前移变方便。
注:HDFS即Hadoop分布式文件系统,Zookeeper即分布式应用程序协调服务,Sqoop即一个用于在Hadoop和传统数据库间数据传递的开源工具,Hive即基于Hadoop的数据仓库工具,适合数据仓库的统计分析,Pig即一种数据流语言和运行环境,用于检索非常大的数据集
注:failover为容错机制,失败自动切换,即当出现失败,重试其他服务器,通常用于读操作。重试会带来更长延迟。
常见容错机制:failover,failsa