从零开始搭建spark集群环境

克莉丝汀娜

已于 2022-05-08 22:47:31 修改

阅读量5.3k

点赞数 4

分类专栏：大数据文章标签： Spark环境搭建 Hadoop环境搭建 CentOS搭建Spark Spark Hadoop

于 2022-04-21 12:57:27 首次发布

本文链接：https://blog.csdn.net/u014679804/article/details/124307564

版权

一、集群环境规划

服务器名称	IP	HDFS	YARN
master	192.168.0.100	NameNode	ResourceManager
node1	192.168.0.101	DataNode	NodeManager
node2	192.168.0.102	DataNode	NodeManager
node3	192.168.0.103	DataNode	NodeManager

二、相关软件包

软件名	下载链接
CentOS 7.9	下载
Hadoop 3.2.3	下载
Spark 3.2.1	下载
JDK 1.8.0.321	下载
Anaconda3	下载

注：安装完虚拟机后，这里将下载的安装包放到/opt/bigdadata目录下

三、安装配置虚拟机

1.虚拟机安装

使用VirtualBox新建虚拟机，内存以及硬盘大小依据物理机自身内存和硬盘大小配置即可：
在这里插入图片描述
虚拟机镜像选择下载的CentOS,按照安装提示进行即可,安装向导最后一步创建完root用户密码后,点右边的USER CREATION,新建一个用户名hduser,作为spark用户

安装完成后,关闭虚拟机,在虚拟机设置中修改网络配置为桥接方式(方便主机和虚拟机以及虚拟机和虚拟机之间进行通信)
在这里插入图片描述

2.虚拟机(master)配置

1.配置主机名:

hostnamectl set-hostname master

2.设置静态IP

编辑网卡配置, IP需和物理机在同一网段

vi /etc/sysconfig/network-scripts/ifcfg-enp0s3

修改BOOTPROTO为static, ONBOOT为yes, 并添加IP相关配置

TYPE=Ethernet
PROXY_METHOD=none
BROWSER_ONLY=no
BOOTPROTO=static
DEFROUTE=yes
IPV4_FAILURE_FATAL=no
IPV6INIT=yes
IPV6_AUTOCONF=yes
IPV6_DEFROUTE=yes
IPV6_FAILURE_FATAL=no
IPV6_ADDR_GEN_MODE=stable-privacy
NAME=enp0s3
UUID=13795826-58dd-479b-ad39-194a1949edaf
DEVICE=enp0s3
ONBOOT=yes
#ip
IPADDR=192.168.0.100
GATEWAY=192.168.0.1
NETMASK=255.255.255.0

3.禁用防火墙

systemctl disable firewalld

4.修改SSH配置

禁用DNS配置项(前面的#号得去掉),解决连接缓慢问题

sed -i 's/GSSAPIAuthentication yes/GSSAPIAuthentication no/g' /etc/ssh/sshd_config
sed -i '/UseDNS yes/ a UseDNS no' /etc/ssh/sshd_config

5.给当前用户添加权限

visudo

添加hduser:
在这里插入图片描述

6.修改hosts文件,添加如下配置

192.168.0.100 master
192.168.0.101 node1
192.168.0.102 node2
192.168.0.103 node3

7.重启

重启刷新下主机名和IP以及SSH配置

reboot

四、JDK配置

解压:

cd /opt/bigdata
tar -zxvf jdk-8u321-linux-x64.tar.gz

设置环境变量:

vi /etc/profile

export JAVA_HOME=/opt/bigdata/jdk1.8.0_321
export JRE_HOME=${
   JAVA_HOME}/jre
export CLASSPATH=.:${
   JAVA_HOME}/lib:${
   JRE_HOME}/lib
export PATH=${
   JAVA_HOME}/bin:$PATH: