搭建spark集群

我非常爱学习

已于 2022-06-14 08:32:42 修改

阅读量125

点赞数

文章标签： spark 大数据 big data

于 2022-03-14 20:24:38 首次发布

本文链接：https://blog.csdn.net/m0_65838036/article/details/123486988

版权

登录ied虚拟机

利用lxy_win7虚拟机上的SecureCRT登录ied虚拟机

（二）配置免密登录

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_19,color_FFFFFF,t_70,g_se,x_16

将生成的公钥发送到本机（虚拟机ied）

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_19,color_FFFFFF,t_70,g_se,x_16

验证虚拟机是否能免密登录本机执行命令：ssh ied，再执行命令：exit

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_19,color_FFFFFF,t_70,g_se,x_16

下载与Spark版本匹配的Hadoop安装包

下载链接：百度网盘请输入提取码提取码：d3hs

将Hadoop安装包上传到虚拟机ied的/opt目录

进入/opt目录，然后利用rz命令上传文件

将Hadoop安装包解压到指定目录

执行命令：tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local

（六）查看Hadoop的安装目录

1、进入Hadoop安装目录查看

执行命令：cd /usr/local/hadoop-2.7.1 与 ll

查看etc/hadoop子目录

勾出了Hadoop比较重要的配置文件

查看sbin子目录

勾出了启动与停止dfs和yarn服务的脚本文件

配置Hadoop实现伪分布式

1、修改环境配置文件 - hadoop-env.sh

进入hadoop配置目录，执行命令：vim hadoop-env.sh

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_17,color_FFFFFF,t_70,g_se,x_16

需要添加或修改以下内容
export JAVA_HOME=/usr/local/jdk1.8.0_231
export HADOOP_HOME=/usr/local/hadoop-2.7.1
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib/native"

存盘退出，然后执行source hadoop-env.sh，让配置立即生效

修改核心配置文件 - core-site.xml

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_17,color_FFFFFF,t_70,g_se,x_16

修改分布式文件系统配置文件 - hdfs-site .xml

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_18,color_FFFFFF,t_70,g_se,x_16

修改MapReduce配置文件 - mapred-site.xml

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_18,color_FFFFFF,t_70,g_se,x_16

执行命令：vim mapred-site.xml

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_18,color_FFFFFF,t_70,g_se,x_16

修改yarn配置文件 - yarn-site.xml

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_18,color_FFFFFF,t_70,g_se,x_16

配置hadoop的环境变量

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_20,color_FFFFFF,t_70,g_se,x_16

在配置Spark单机版时，就配置了SPARK_HOME
存盘退出，执行命令source /etc/profile，让配置生效

创建存放生成文件的临时目录

返回到hadoop安装目录，创建tmp子目录

格式化名称节点

执行命令：hdfs namenode -format，格式化名称节点，形成可用的分布式文件系统HDFS

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_20,color_FFFFFF,t_70,g_se,x_16

看到22/02/22 21:09:34 INFO common.Storage: Storage directory /usr/local/hadoop-2.7.1/tmp/dfs/name has been successfully formatted.，表明名称节点格式化节点成功
启动与关闭hadoop服务

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_20,color_FFFFFF,t_70,g_se,x_16

执行命令：start-yarn.sh，启动yarn服务 - 分布式计算

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_20,color_FFFFFF,t_70,g_se,x_16

执行命令：jps，查看hadoop进程

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_17,color_FFFFFF,t_70,g_se,x_16

停止hadoop服务

执行命令：stop-dfs.sh，停止dfs服务

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_16,color_FFFFFF,t_70,g_se,x_16

执行命令：stop-yarn.sh，停止yarn服务

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_16,color_FFFFFF,t_70,g_se,x_16

搭建伪分布式Spark

执行命令：cd $SPARK_HOME/conf

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_17,color_FFFFFF,t_70,g_se,x_16

生成环境配置文件 - spark-env.sh

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_17,color_FFFFFF,t_70,g_se,x_16

修改环境配置文件 - spark-env.sh

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_17,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_16,color_FFFFFF,t_70,g_se,x_16

配置spark环境变量\

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_16,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_20,color_FFFFFF,t_70,g_se,x_16

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_16,color_FFFFFF,t_70,g_se,x_16

启动伪分布式Spark

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_16,color_FFFFFF,t_70,g_se,x_16

启动spark服务

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_18,color_FFFFFF,t_70,g_se,x_16

交互式Spark Shell

（一）scala版spark shell

执行命令：spark-shell --master=local

在scala>提示符后面执行:quit，退出scala版spark shell

python版spark shell

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_18,color_FFFFFF,t_70,g_se,x_16

在>>>提示符后执行exit()函数退出python版spark shell

访问Spark WebUI

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5oiR6Z2e5bi454ix5a2m5Lmg,size_18,color_FFFFFF,t_70,g_se,x_16

访问http://192.168.1.110:4040 - 注意端口号是4040

关闭与禁用虚拟机ied的防火墙
执行命令：systemctl stop firewalld.service
执行命令：systemctl disable firewalld.service
执行命令：systemctl status firewalld，查看防火墙状态
关闭lxy_win7防火墙
访问http://192.168.1.110:4040