后续更新Hadoop学习笔记,根据学习徐培成老师大数据课程整理。后续笔记所用的环境均为Vmware WorkStation12.0+Ubuntu16.04(64位)+Hadoop-2.7.3。
一.Hadoop的四个模块
(1)Hadoop common:
支持其他模块的工具模块
(2)Hadoop Distributed File System (HDFS)
分布式文件系统,提供了对应用程序数据的高吞吐量访问。
进程:
NameNode 名称节点 NN
DataNode 数据节点 DN
SecondaryNamenode 辅助名称节点 2ndNN
(3)Hadoop YARN:
作业调度与集群资源管理的框架。
进程
ResourceManager 资源管理—RM
NodeManager 节点管理器—NM
(4)Hadoop MapReduce:
基于yarn系统的对大数据集进行并行处理技术
二.Hadoop安装
下文配置采用Vmware12.0+Ubuntu16.04(64位)
1.安装JDK
a) 解压缩安装包,以jdk1.8.0_171为例
$mkdir /home/ctr/soft
$cd /Download
$ tar -zxvf jdk.1.8.0_171.tar
$ mv jdk1.8.0_171 /home/ctr/soft/
b)修改环境变量
$sudo gedit ~/.bashrc
在文本末尾添加以下内容:
exportJAVA_HOME=/home/ctr/soft/jdk1.8.0_171
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
c)使环境变量生效
$ source ~/.bashrc
d)测试
$ java -version
2.安装hadoop,以hadoop-2.7.3.tar为例,在/home下运行:
a)解压缩
$tar -zxvf ~/Download/Hadoop-2.7.3.tar
$ mv ~/Downloads/hadoop-2.7.3 ~/soft/
3)验证hadoop安装是否成功
$cd /soft/ hadoop-2.7.3/bin
$./hadoop version
3.配置hadoop的环境变量
$sudo gedit ~/.bashrc
添加
export HADOOP_HOME=/home/ctr/soft/ hadoop-2.7.3
export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
使环境变量生效:
$source~/.bashrc
在非hadoop目录下测试:
$hadoop version