干货分享：Python搭建Spark分布式集群环境

最新推荐文章于 2024-05-03 11:51:41 发布

程序员牡蛎

最新推荐文章于 2024-05-03 11:51:41 发布

阅读量3.4k

点赞数

分类专栏： python 文章标签：大数据 linux python hadoop 分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chengxun03/article/details/105802139

版权

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府
这篇文章主要介绍了Spark分布式集群环境搭建基于Python版，Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。100 倍本文而是使用三台电脑来搭建一个小型分布式集群环境安装,需要的朋友可以参考下
前言

Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark 最大的特点就是快，可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。
本教程采用Spark2.0以上版本（比如Spark2.0.2、Spark2.1.0等）搭建集群，同样适用于搭建Spark1.6.2集群。

安装Hadoop并搭建好Hadoop集群环境
Spark分布式集群的安装环境，需要事先配置好Hadoop的分布式集群环境。

安装Spark

这里采用3台机器（节点）作为实例来演示如何搭建Spark集群，其中1台机器（节点）作为Master节点，另外两台机器（节点）作为Slave节点（即作为Worker节点），主机名分别为Slave01和Slave02。
在Master节点机器上，访问Spark官方下载地址，按照如下图下载。在这里插入图片描述
下载完成后，执行如下命令：

最低0.47元/天解锁文章

程序员牡蛎

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
干货分享：Python搭建Spark分布式集群环境

@本文来源于公众号：csdn2299，喜欢可以关注公众号程序员学府这篇文章主要介绍了Spark分布式集群环境搭建基于Python版，Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。100 倍本文而是使用三台电脑来搭建一个小型分布式集群环境安装,需要的朋友可以参考下前言Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spar...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。