.Hadoop简介
Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架,其最核心的设计包括:MapReduce 和 HDFS。基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。
HDFS:Hadoop Distributed File System 的缩写,Hadoop中的分布式文件系统,它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。
MapResuce:MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了
进入hadoop官网进行下载,下载地址:https://hadoop.apache.org/releases.html
这里我下载的是2.7.3版本的Hadoop,你也可以选择下载别的版本,用xftp(没有这个可以从网上自己下载一个)把下载好的传到你自己定义的目录中,这里我放在了自己创建的installpkgs目录下,如下图所示:
完成之后,输入tar -xzvf hadoop-2.7.3.tar.gz 命令进行解压,之后在其他虚拟机上做同样的操作,这里我其他两个虚拟机的名字分别是:hadoop-slave1,hadoop-slave2.解压完成后就是在当前目录下如图:
配置hadoop环境变量,我的安装目录/home/hadoop/installpkgs/hadoop-2.7.3
输入命令 vi ~/.bashrc 添加如下代码:
export HADOOP_HOME=/home/hadoop/installpkgs/hadoop-2.7.3
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
保存退出,输入命令 source ~/.bashrc 加载该文件,输入hadoop version 进行验证如下图所示则表示成功:
每个虚拟机做同样的工作,也可以把写好的一个传送两外连个虚拟机上,命令如下:
scp ~/.bashrc hadoop@hadoop-slave1:~/.bashrc
scp ~/.bashrc hadoop@hadoop-slave2:~/.bashrc
在另外两个虚拟机用cat ~/.bashrc命令进行查看, 输入命令source .bashrc 加载该文件,之后用hadoop version 进行验证,这里我只展示一个例子如下图:
这样我们hadoop的环境变量就配置完成了,之后我们要开始操作hadoop了,在操作之前,我们需要关闭防火墙及selinxu守护进程,如果不关闭,在启动hadoop的时候可能报错或无法启动,每个虚拟机上都要做如下操作:
systemctl status firewalld # 查看防火墙状态
systemctl stop firewalld # 关闭防火墙
systemctl disable firewalld #禁止开机时启动
如下图所示:
关闭selinux守护线程:使用root用户
su root # 切换到rot用户
getenforce # 查看selinux守护线程的状态
setenforce 0 # 关闭selinux守护线程
exit # 回到原来的终端
如下图所示:
这样我们的hadoop安装和配置就完成了,