我在编写过程中废话有点多 = =,是根据自己安装过程中的顺序进行的编写,排版有点乱,不要介意
一、需要资源
- Vmware WorkStation
- ubuntu
- hadoop
- jdk
我使用的是ubuntu14.04.6、hadoop-2.7.3、jdk-8u144-linux-x64(64位)
二、资源下载网址
1.hadoop和jdk可在官网上下载(访问官网一致都有点慢)
2.hadoop官网: https://hadoop.apache.org/releases.html
3.jdk官网:https://www.oracle.com/java/technologies/javase-jdk8-downloads.html
三、解压hadoop和jdk压缩包
1.tar -xzvf 压缩包的名称
2.tar -xzvf 压缩包的名称
[注]压缩包的名称可以结合Tab键使用,也就是输入压缩包名称的前几个然后按Tab键就出来,如果没出来则说明输入的前几个字母在该文件夹下有重复的
四、配置环境变量
1.vi /etc/profile 或者 vi ~/.bashrc
编辑这两个文件其中的一个就可以了,如果可以修改直接看3步骤
在进行修改的时候可能文件具有权限,不能修改啊,修改后不能保存等等,此时都需要进行权限修改
2.sudo chmod 777 /etc/profile
注意了,此处需要赋以超级管理员权限进行更改指定文件的权限,就是使用sudo,sudo的时候都要输入密码的。
这就是修改权限后的profile文件,这个文件在/etc
目录下面,我的修改权限的命令是在/etc目录下执行的,其实在哪个目录下执行都可以
3.配置环境变量文件
注意:在文件末尾添加内容的时候,光标移动到最后一个字母,shift+A,则调至最后然后回车开启新的一行
教你一招,配置JAVA_HOME
时候,进入解压后的jdk的bin目录,然后右击选择最后的一项,出现如下界面,复制被圈内容粘贴到JAVA_HOME后面就行了,HADOOP_HOME同理,最终配置文件内容看该步骤的最后一个图。
然后保存文件退出即可
4.生效配置文件
source /etc/profile
5.检验环境变量是否配置成功
通过查看java和hadoop的版本号来检测
版本号都出来了,说明配置成功。如果没成功,则刚配置的文件哪里写错了
6.修改hadoop-env.sh
这个文件在解压的hadoop文件夹/etc/hadoop
中
双击打开,找到这句话,进行修改,后面跟的就是上一步的JAVA_HOME的值
ctrl+S,保存关闭 (如果可行,则进入第五步)
[注意]
如果出现如下错误,则恭喜,权限又不够了,需要修改权限,sudo的时候都要输入密码的,以及后续在开启hadoop的时候也会因为权限不够而报错,尽量在次将解压后的hadoop文件夹及其中的所有都改为777(可读可写可执行)
sudo chmod 777 hadoop-2.7.1/* (我这里不是绝对路径,需要进入hadoop-2.7.1所在目录下)
sudo chmod 777 hadoop-env.sh(只是修改这个文件的权限)
进入该文件所在目录,然后执行如下命令即可,
然后还无法保存,则vi hadoop-env.sh
,找到export JAVA_HOME,然后修改
然后esc–> : -->wq–>回车 就保存了
保存成功
五、配置四个文件(解压的hadoop文件夹/etc/hadoop
目录下)
第一个命令,会将hadoop下的所有文件上锁,访问任何一个都会需要权限,而第二个命令则将hadoop下的所有文件都可读可写可执行
1.core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
2.hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/home/ubuntu001/Downloads/hadoop-2.7.3
/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/ubuntu001/Downloads/hadoop-2.7.3
/data</value>
</property>
在解压的hadoop目录下,与bin目录同级别,创建name和data两个文件夹
sudo mkdir name
sudo mkdir data
(两个命令都是在hadoop-2.7.3/etc/hadoop下执行的)
3.yarn-sit.xml
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
4.mapred-sit.xml
[注意]这个文件需要复制更名
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
source /etc/profile
六、ssh配置
1.查看虚拟机是否存在ssh
cd ~/.ssh
如果没有,则需要下载
sudo apt-get install ssh
下图是存在的,因为进入了该目录
2.生成密钥
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
3.进入~/.ssh目录查看公钥和私钥
4.将公钥追加到授权的key中
ssh-copy-id 主机名(与@符号后面的保持一致)
生成authorized_keys,配置成功。
七、格式化名称节点
hdfs namenode -format
如果报错了,可能是四个文件哪里复制错了,如果出现如下两种错误,则可能是没有source /etc/profile
,再执行一下这个命令就可以了
八、开启hadoop
start-all.sh
等同于 start-dfs.sh、start-yarn.sh
但是两者又有些许不同
九、查看进程
jps或着在虚拟机的浏览器中访问localhost:50070查看
开启成功,则一共显示6个进程
恭喜,伪分布式搭建成功!!!