Hadoop2.7.2之集群搭建(单机)
最近需要安装webank开源的DataSphere Studio(https://github.com/WeBankFinTech/DataSphereStudio-Doc/blob/main/zh_CN/%E5%AE%89%E8%A3%85%E9%83%A8%E7%BD%B2/DSS%E5%8D%95%E6%9C%BA%E9%83%A8%E7%BD%B2%E6%96%87%E6%A1%A3.md),发现里面需要Hadoop2.7.2,其他版本需自行编译Linkis,为了方便,就安装2.7.2版本的单机版Hadoop,记录一下。
(1)下载地址
https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/
(2)上传、解压
tar -zxvf hadoop-2.7.2.tar.gz -C /home/programs/
(3) /home/programs/hadoop-2.7.2/etc/hadoop下修改hadoop-env.sh的文件内容
[root@server11 hadoop]# vim ./hadoop-env.sh
# 指定JAVA_HOME
export JAVA_HOME=/home/programs/jdk1.8
(4)/home/programs/hadoop-2.7.2/etc/hadoop下修改core-site.xml的文件内容
[root@server19 hadoop]# vim ./core-site.xml
<configuration>
<!-- 指定HDFS老大(namenode)的通信地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.100.19:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储路径 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/home/programs/hadoop-2.7.2/tmp</value>
</property>
</configuration>
注:这里fs.defaultFS的value最好是写本机的静态IP。当然写本机主机名,再配置hosts是最好的,如果用localhost,然后在windows用java操作hdfs的时候,会连接不上主机。
(5)/home/programs/hadoop-2.7.2/etc/hadoop下修改hdfs-site.xml的文件内容
<configuration>
<!-- 设置hdfs副本数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
(6)SSH免密登录
#到 root 目录下:
cd /root
#执行生成密钥命令:
ssh-keygen -t rsa
#然后三个回车
#然后复制公钥追加到第一台节点的公钥文件中:
ssh-copy-id -i /root/.ssh/id_rsa.pub root@server19
#选择 yes
#输入登录第一台节点的密码(操作完成该节点公钥复制到第一台节点中)
(7) 配置环境变量
vim /etc/profile
export HADOOP_HOME=/home/programs/hadoop-2.7.2/
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$MAVEN_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
(8)hdfs 启动与停止
第一次启动得先格式化(最好不要复制):
hdfs namenode -format
启动hdfs
[root@server19 ~]# start-dfs.sh
(9)开放50070端口
添加永久开放的端口
firewall-cmd --add-port=50070/tcp --permanent
firewall-cmd --reload
浏览器访问:
(10) 配置yarn启动
1、配置mapred-site.xml
[root@server19 ~]# cd /home/programs/hadoop-2.7.2/etc/hadoop/
[root@server19 hadoop]# mv mapred-site.xml.template mapred-site.xml
[root@server19 hadoop]# vim mapred-site.xml
<configuration>
<!-- 通知框架MR使用YARN -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
2、配置yarn-site.xml
<configuration>
<!-- reducer取数据的方式是mapreduce_shuffle -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
3、启动yarn
start-yarn.sh
浏览器访问(防火墙开放8088端口):
http://192.168.100.19:8088/
至此,我们Hadoop的单机模式搭建成功。