2024年最新用 Docker 搭建 Spark 集群_docker spark-mesos(1)，软件测试语言基础教程培训

2401_84140707

于 2024-05-11 01:18:10 发布

阅读量303

点赞数 5

分类专栏：程序员文章标签：单元测试功能测试学习

本文链接：https://blog.csdn.net/2401_84140707/article/details/138688612

版权

程序员专栏收录该内容

189 篇文章 1 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

简介

Spark 是 Berkeley 开发的分布式计算的框架，相对于 Hadoop 来说，Spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。

熟悉 Hadoop 的同学也不必担心，Spark 很多设计理念和用法都跟 Hadoop 保持一致和相似，并且在使用上完全兼容 HDFS。但是 Spark 的安装并不容易，依赖包括 Java、Scala、HDFS 等。

通过使用 Docker，可以快速的在本地搭建一套 Spark 环境，方便大家开发 Spark 应用，或者扩展到生产环境。

Spark 的设计理念很简单，master 节点负责接收要执行的应用和指令，worker 节点负责具体处理。

除了自带的集群机制，还兼容集成到其他的集群框架，包括 mesos、yarn 等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

安装

其实官方的源码中已经提供了支持 mesos 的 Dockerfile 文件，在 docker\spark-mesos 下面，可以据此生成 Docker 镜像。

这里，我们采用比较热门的 sequenceiq/docker-spark 镜像，这个镜像已经安装了对 Spark 的完整依赖。

无论官方还是 sequenceiq/docker-spark 镜像，都是基于提前打包的二进制文件来制作的，都可以放心使用。

由于镜像比较大（2+ GB），首先下载该镜像到本地。

$ docker pull sequenceiq/spark:1.4.0

下载完毕后，从 https://github.com/yeasy/docker-compose-files/tree/master/spark_cluster 下载编写好的支持 Spark 集群的 docker-compose.yml 文件，并启动它

$ sudo pip install docker-compose==1.4.0
$ docker-compose up

可以看到类似如下的输出：

Creating sparkcompose_master_1...
Creating sparkcompose_slave_1...
Attaching to sparkcompose_master_1, sparkcompose_slave_1
master_1 | /
master_1 | Starting sshd: [  OK  ]
slave_1  | /
slave_1  | Starting sshd: [  OK  ]
master_1 | Starting namenodes on [master]
slave_1  | Starting namenodes on [5d0ea02da185]
master_1 | master: starting namenode, logging to /usr/local/hadoop/logs/hadoop-root-namenode-master.out
slave_1  | 5d0ea02da185: starting namenode, logging to /usr/local/hadoop/logs/hadoop-root-namenode-5d0ea02da185.out
master_1 | localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-root-datanode-master.out
slave_1  | localhost: starting datanode, logging to /usr/local/hadoop/logs/hadoop-root-datanode-5d0ea02da185.out
master_1 | Starting secondary namenodes [0.0.0.0]
slave_1  | Starting secondary namenodes [0.0.0.0]
master_1 | 0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-root-secondarynamenode-master.out
master_1 | starting yarn daemons
master_1 | starting resourcemanager, logging to /usr/local/hadoop/logs/yarn--resourcemanager-master.out
master_1 | localhost: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-root-nodemanager-master.out
master_1 | starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark-1.4.0-bin-hadoop2.6/sbin/../logs/spark--org.apache.spark.deploy.master.Master-1-master.out
slave_1  | 0.0.0.0: starting secondarynamenode, logging to /usr/local/hadoop/logs/hadoop-root-secondarynamenode-5d0ea02da185.out
slave_1  | starting yarn daemons
slave_1  | starting resourcemanager, logging to /usr/local/hadoop/logs/yarn--resourcemanager-5d0ea02da185.out
slave_1  | localhost: starting nodemanager, logging to /usr/local/hadoop/logs/yarn-root-nodemanager-5d0ea02da185.out
slave_1  | starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark-1.4.0-bin-hadoop2.6/sbin/../logs/spark--org.apache.spark.deploy.worker.Worker-1-5d0ea02da185.out

docker-compose 服务起来后，我们还可以用 scale 命令来动态扩展 Spark 的 worker 节点数，例如

$ docker-compose scale worker=2
Creating and starting 2... done

注意，需要先用 pip 安装 docker-compose，1.4.1 版本有 bug，推荐使用 1.4.0 版本。

docker-compose 文件

我们来解析下 docker-compose 文件，核心内容很简单，包括 master 服务和 worker 服务。

master:
  image: sequenceiq/spark:1.4.0
  hostname: master
  ports:
  - "4040:4040"
  - "8042:8042"
  - "7077:7077"
  - "8080:8080"
  - "8088:8088"
  restart: always
  command: bash /usr/local/spark/sbin/start-master.sh && ping localhost > /dev/null

worker:
  image: sequenceiq/spark:1.4.0
  links:
  - master:master
  expose：
  - "8081"
  restart: always
  command: bash /usr/local/spark/sbin/start-slave.sh spark://master:7077 && ping localhost >/dev/null

master 服务

首先，master 服务映射了好几组端口到本地，分别功能为： 4040：Spark 运行任务时候提供 web 界面观测任务的具体执行状况，包括执行到哪个阶段、在哪个 executor 上执行； 8042：Hadoop 的节点管理界面； 7077：Spark 主节点的监听端口，用户可以提交应用到这个端口，worker 节点也可以通过这个端口连接到主节点构成集群； 8080：Spark 的监控界面，可以看到所有的 worker、应用整体信息； * 8088：Hadoop 集群的整体监控界面。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

master 服务启动后，执行了 bash /usr/local/spark/sbin/start-master.sh 命令来配置自己为 master 节点，然后通过 ping 来避免容器退出。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以戳这里获取

](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**

2401_84140707

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
2024年最新用 Docker 搭建 Spark 集群_docker spark-mesos(1)，软件测试语言基础教程培训

Spark 是 Berkeley 开发的分布式计算的框架，相对于 Hadoop 来说，Spark 可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。熟悉 Hadoop 的同学也不必担心，Spark 很多设计理念和用法都跟 Hadoop 保持一致和相似，并且在使用上完全兼容 HDFS。但是 Spark 的安装并不容易，依赖包括 Java、Scala、HDFS 等。
复制链接

扫一扫