目录
1.首先进入到etc下的hadoop目录,要修改的文件都在这个目录下,命令如下:
9.输入jps,如果出现以下6个数据,则代表伪分布式配置成功
这是一篇碰壁2天的难产文章,首先强调一点,本篇文章是针对Hadoop2.x环境的搭建,并不适应于Hadoop3.x(因为我一直用3.x版本试过,一直Error,最后我下了2.8.5版本)
图片有不准的地方,以文字代码啊为主,图片只是演示过程
一、下载合适的Hadoop并解压,安装到linux下
1.官网地址:https://hadoop.apache.org/
下载步骤如下:
(1)
(2)
(3)我选择的是hadoop2.8.5版本,也可以选择stable(稳定)版本,稳定版是hadoop3.x
2.下载成功后,安装过程和jdk相同,在这里不再过多叙述,如果有不懂的,可以查看我的上一篇文章:https://blog.csdn.net/mango_ZZY/article/details/104045931
(1)上传文件
(2)首先创建了一个文件存放hadoop-2.8.5.tar.gz
mkdir /usr/local/hadoop
(3)将压缩包移动到上面创建的目录中,并解压
#移动
mv hadoop-2.8.5.tar.gz /usr/local/hadoop/
#解压
tar -zxvf hadoop-2.8.5.tar.gz
解压后如图:
(4)配置环境变量,由于之前有乐jav环境,因此最后整体如下:
export JAVA_HOME=/usr/local/java/jdk1.8.0_241
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.8.5
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
(5)输入命令,使其生效
source /etc/profile
(6)输入命令,查看hadoop
hadoop version
这里的图是我之前用hadoop3.2.1版本装的时候截的图,看效果即可,版本号忽略。
二、搭建Hadoo
p伪分布式
这里需要修改5个配置文件,这5个文件至关重要,不能出错,分别是
hadoop-env.sh
hdfs-site.xml
core-site.xml
mapred-site.xml
yarn-site.xml
1.首先进入到etc下的hadoop目录,要修改的文件都在这个目录下,命令如下:
cd /usr/local/hadoop/hadoop-2.8.5/etc/hadoop
2.修改hadoop-env.sh
vim hadoop-env.sh
#然后在其中添加java路径
export JAVA_HOME=/usr/local/jdk1.8.0_241
3.修改hdfs-site.xml
vim hdfs-site.xml
<!--配置HDFS的副本,冗余度-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
#因为这里是一个主机的伪分布式,所以value值为1,正常来说,副本数量默认至少为3
4.修改core-site.xml
vim core-site.xml
<!--配置主机NameNode的主机地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs:cast01:9000</value>
</property>
<!--配置存放Datenode数据-->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoop-2.8.5/tmp</value>
</property>
#cast01是我的主机名,这里要放你的主机名,或者放对应的IP地址也可以
#/usr/local/hadoop/hadoop-2.8.5/tmp为一个路径,存放临时文件,这里在你的hadoop下创建一个tmp文件夹即可
5.修改 mapred-site.xml
vim mapred-site.xml
<!--配置MR运行框架-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
6.修改 vim yarn-site.xml
vim yarn-site.xml
<!--配置resourcemanagerd的地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>case01</value>
</property>
<!--配置Nodename的执行方式-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
#case01是我的主机名,这里放你的主机名即可
7.以上5个文件修改完成后,格式化HDFS
hdfs namenode –format
看到status 0则代表格式化更改,如果是status 1则格式化失败,可以查看到报错。
格式化成功后,hadoop目录下会多出一个tmp(我自己创建的)目录
8.格式化成功后,启动hadoop(伪分布式)
在sbin目录下输入:
./start-all.sh
由于没有设置ssh免密登录,因此过程中会输入3次yes,4次密码(ssh免密登录下篇讲解)