Spark集群安装

最新推荐文章于 2024-04-18 18:49:13 发布

水木流年追梦

最新推荐文章于 2024-04-18 18:49:13 发布

阅读量193

点赞数

分类专栏：算法，存储，大数据大数据技术

本文链接：https://blog.csdn.net/qq_32146369/article/details/89294782

版权

算法，存储，大数据同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

大数据技术

9 篇文章 0 订阅

订阅专栏

准备两台以上Linux服务器，安装好JDK

上传spark-安装包到Linux上

解压安装包到指定位置

进入到Spark安装目录

进入conf目录并重命名并修改spark-env.sh.template文件

在该配置文件中添加如下配置

export JAVA_HOME=/usr/java/jdk1.8.0_111

#export SPARK_MASTER_IP=node1.edu360.cn

#export SPARK_MASTER_PORT=7077

保存退出

重命名并修改slaves.template文件

在该文件中添加子节点所在的位置（Worker节点）

node2.edu360.cn

node3.edu360.cn

node4.edu360.cn

保存退出

将配置好的Spark拷贝到其他节点上

Spark集群配置完毕，目前是1个Master，3个Work，在node1.edu360.cn上启动Spark集群

启动后执行jps命令，主节点上有Master进程，其他子节点上有Work进行，登录Spark管理界面查看集群状态（主节点）：http://node1.edu360.cn:8080/

到此为止，Spark集群安装完毕，但是有一个很大的问题，那就是Master节点存在单点故障，要解决此问题，就要借助zookeeper，并且启动至少两个Master节点来实现高可靠，配置方式比较简单：

Spark集群规划：node1，node2是Master；node3，node4，node5是Worker

安装配置zk集群，并启动zk集群

停止spark所有服务，修改配置文件spark-env.sh，在该配置文件中删掉SPARK_MASTER_IP并添加如下配置

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk1,zk2,zk3 -Dspark.deploy.zookeeper.dir=/spark"

1.在node1节点上修改slaves配置文件内容指定worker节点

2.在node1上执行sbin/start-all.sh脚本，然后在node2上执行sbin/start-master.sh启动第二个Master

执行第一个spark程序

/usr/local/spark-2.1.0-bin-hadoop2.6/bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node1.edu360.cn:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
/usr/local/spark-2.1.0-bin-hadoop2.6/lib/spark-examples-2.1.0-hadoop2.6.0.jar \
100

该程序是用蒙特卡洛方法求pi

启动sparkshell

spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下用scala编写spark程序。

/usr/local/spark-2.1.0-bin-hadoop2.6/bin/spark-shell \
--master spark://node1.edu360.cn:7077 \
--executor-memory 2g \
--total-executor-cores 2

参数说明：

--master spark://node1.edu360.cn:7077 指定Master的地址

--executor-memory 2g 指定每个worker可用内存为2G

--total-executor-cores 2 指定整个集群使用的cup核数为2个

注意：

如果启动spark shell时没有指定master地址，但是也可以正常启动spark shell和执行spark shell中的程序，其实是启动了spark的local模式，该模式仅在本机启动一个进程，没有与集群建立联系。

Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到，则直接应用sc即可

水木流年追梦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录