Hadoop database 的简称,也就是基于Hadoop面向列的分布式数据表数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为 ,类似与nosql数据库
hbase为id 和列组 列组类似姓氏 一个姓氏可以加很多列
为查询而生,通过阻止节点内所有机器的内存,提供超大的内存Hash表
hive是高延迟、结构化和面向分析的,hbase是低延迟、非结构化和面向编程的。Hive数据仓库在hadoop上是高延迟的。
Hbase与Hive区别
Hive数据仓库,能够通过SQL来计算和处理HDFS上的结构化数据,适用于离线的批量数据计算 。
Hbase数据库,主要用于查询,用于海量明细数据的随机查询
两者之间的关系
通过ETL工具将数据源抽取到HDFS存储;
通过Hive清洗、处理和计算原始数据,当然目前来说用spark更加方便;
清洗处理后的结果,如果是面向海量数据随机查询场景的可存入Hbase
数据应用从HBase查询数据;
Hbase安装
上传安装包
解压
修改配置文件
修改hbase-env.sh 环境配置
export JAVA_HOME=/usr/java/jdk1.8.0_231
export HADOOP_HOME=/root/APP/hadoop-2.6.0-cdh5.15.1 hadoop
export HBASE_HOME=/root/APP/hbase-1.2.0-cdh5.15.1 hbase
export HBASE_MA