本文介绍的是在虚拟机中搭建的一个spark集群,该集群有三台虚拟机组成,一个主节点,两个从节点。主要涉及到的主要环节分为:VMware® Workstation 14 Pro安装、centos7安装、主机之间免密登录、java安装、hadoop安装、scala安装、spark安装。这里面主要介绍主机之间免密登录、java安装、hadoop安装、scala安装、spark安装。
一.VMware® Workstation 14 Pro安装
密钥:FF31K-AHZD1-H8ETZ-8WWEZ-WUUVA
2.安装参考
https://jingyan.baidu.com/article/9f7e7ec09da5906f281554d6.html
二.centos安装
1.下载链接
http://isoredirect.centos.org/centos/7/isos/x86_64/
2.安装参考
https://jingyan.baidu.com/article/b7001fe1d1d8380e7382dd72.html
三.配置centos主机的网络
1.网络适配器选择NAT
2.设置虚拟主机的网段和dns服务
本文设置的单台主机的
网段为:192.168.149.0,子网掩码:255.255.255.0
DNS服务如下所示:
202.106.196.115
202.106.195.68
202.106.0.20
3.设置虚拟主机的IP
本文设置的主节点的IP为192.168.149.132,从节点1为192.168.149.133,从节点2为192.168.149.134,本文以主节点的设置为例:
4.设置虚拟主机的主机名
本文设置的主节点的IP(192.168.149.132)的主机名为maste,从节点1(192.168.149.133)的主机名为slave01,从节点2(192.168.149.134)的主机名为slave02,本文以主节点的设置为例:
step01:打开终端窗口输入命令
step02:在主节点上将用户切换至root,打开终端窗口输入命令:su root
step03:输入命令gedit /etc/sysconfig/network,打开network
在里面输入:
NETWORKING=yes
HOSTNAME=master
然后保存,退出。
step04:输入hostname master,使配置生效
5.slave01与slave02的配置请参照“三.配置centos主机的网络”中的1,2,3,4步
6.配置maste,slave01,slave02的host文件
step01:在终端窗口中输入命令,gedit /etc/hosts
在里面输入:
192.168.149.132 master
192.168.149.133 slave01
192.168.149.134 slave02
然后保存,退出。
四.配置maste到slave01,slave02的免密登录
1.关闭maste,slave01,slave02的防火墙
step01:在终端窗口中输入命令,systemctl stop firewalld
step02:在终端窗口中输入命令,systemctl status firewalld,验证防火墙是否关闭成功
2.生成密钥
在终端窗口中输入命令,在ssh-keygen -t rsa,后面终端中显示要输入的话,直接回车就ok了。
生成的密钥在~/.ssh目录下,生成的文件如下所示:
3.将master主机生成的公钥复制到slave01,slave02
step01:将其中的id_rsa.pub复制成authorized_keys并保存至 ~/.ssh/目录下
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
step02:修改authorized_keys的权限
chmod 600 ~/.ssh/authorized_keys
step03:将master节点上的authorized_keys复制到slave01,salve02主机的 ~/.ssh/目录下(注意如果slave01,salve02主机没有~/.ssh/目录,就到slave01,salve02主机下创建~/.ssh/目录)
scp ~/.ssh/authorized_keys deamon@slave01:~/.ssh/
scp ~/.ssh/authorized_keys deamon@slave02:~/.ssh/
4.配置/etc/ssh/sshd_config
step01:以master节点为例,在切换至root用户
step02:在终端窗口中输入命令,gedit /etc/ssh/sshd_config,在里面输入:
RSAAuthentication yes # 启用 RSA 认证
PubkeyAuthentication yes # 启用公钥私钥配对认证方式
AuthorizedKeysFile /root/.ssh/authorized_keys # 公钥文件路径
然后保存,退出。
step03:slave01,salve02主机的/etc/ssh/sshd_config文件配置参照,step01,step02。
5.验证master主机免密登录到主机slave01,slave02的效果
在终端窗口中输入命令,ssh slave01,ssh slave02
五.java安装
1.下载
我的安装的java为jdk_8u211-b12
2.安装参考
java安装在/opt目录下
https://jingyan.baidu.com/article/9f7e7ec0f8c26b6f28155433.html
六.hadoop安装
1.下载
本文安装的hadoop为hadoop-2.8.5,安装目录在/opt目录下
下载链接为:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz
2.配置hadoop-env.sh
在终端窗口中输入命令,gedit /opt/hadoop-2.8.5/etc/hadoop/hadoop-env.sh,在里面输入:
export JAVA_HOME=/usr/java_8/jdk1.8.0_211
3.配置hadoop-env.sh
在终端窗口中输入命令,gedit /opt/hadoop-2.8.5/etc/hadoop/hadoop-env.sh,在里面输入:
export JAVA_HOME=/usr/java_8/jdk1.8.0_211
4.创建hadoopdata
cd /opt/
mkdir hadoopdata
5.core-site.xml
在终端窗口中输入命令,gedit /opt/hadoop-2.8.5/etc/hadoop/core-site.xml,在里面输入:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoopdata</value>
</property>
</configuration>
6.hdfs-site.xml
在终端窗口中输入命令,gedit /opt/hadoop-2.8.5/etc/hadoop/hdfs-site.xml,在里面输入:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
7.yarn-site.xml
在终端窗口中输入命令,gedit /opt/hadoop-2.8.5/etc/hadoop/yarn-site.xml,在里面输入:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:18030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:18025</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:18141</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:18088</value>
</property>
</configuration>
8.mapred-site.xml
在终端窗口中输入命令,gedit /opt/hadoop-2.8.5/etc/hadoop/mapred-site.xml,在里面输入:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
9.配置slaves文件
在终端窗口中输入命令,gedit /opt/hadoop-2.8.5/etc/hadoop/slaves,在里面输入:
slave01
slave02
10.配置slave01,slave02主机上的hadoop环境
将master上配置好的hadoop拷贝到slave01,slave02
scp -r /opt/hadoop-2.8.5 deamon@slave01:/opt
scp -r /opt/hadoop-2.8.5 deamon@slave02:/opt
11.配置系统环境
step01:在终端窗口中输入命令,gedit /etc/profile,在里面输入:
export HADOOP_HOME=/opt/hadoop-2.8.5
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
step02:在终端窗口中输入命令,source /etc/profile,使配置生效
12.启动hadoop集群
step01:在master虚机上输入hdfs namenode -format,格式化文件系统
step02:在终端窗口中输入命令,sh /opt/hadoop-2.8.5/sbin/start-all.sh,启动hadoop。
注意:在启动之前确保登录用户(本文的登录用户为deamon),对hadoop安装目录以及tmp目录拥有权限没有的话可以输入命令:chown -R deamon:deamon /opt/以及chown -R deamon:deamon /tmp/
13.验证hadoop是否启动成功
step01:在master,slave01,slave02上输入jps,验证相关进程是否启动
step02:http://master:50070,验证NameNode和DataNode
step03:http://master:18088,验证yarn
七.总结
hadoop安装环境就此安装完毕,spark集群完整搭建流程下篇,请参照:我的下一篇博客“spark环境搭建下---Spark集群搭建” https://blog.csdn.net/cao812755156/article/details/97771113