目录
二、Hbase在master上操作,将hbase安装到/home/hadoop2目录下。
Hadoop是一个开发和运行处理大规模数据的平台,实现在多台计算机组成的集群中对海量数据进行分布式计算。
hadoop框架最核心的部分是hdfs和mapreduce。hdfs提供了海量数据的存储,mapreduce提供了对数据的计算。
hadoop处理海量数据,需要hbase做数据库,hbase是面向列的分布式数据库,使用集群环境的内存做处理,但是不支持sql语句,所以操作和计算数据非常不方便,于是整合hive,hive支持sql语句,让hive支撑在hbase数据库层面的查询。
下面介绍hadoop+hbase+hive的环境部署:
一、Hadoop框架
hadoop使用主/从(master/slave)架构,主要由NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成。
其中,NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在Slave节点上。
NameNode:HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据块被存储到哪些数据节点上。
DataNode:集群中每个从服务器都运行一个DataNode后台程序,后台程序负责把HDFS数据块读写到本地文件系