以集群方式运行pyspark

私奔到月球2023

已于 2022-05-31 16:39:01 修改

阅读量2.6k

点赞数 1

分类专栏： Python锦集大数据锦集文章标签： spark 大数据 python

于 2022-05-21 11:22:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gdjdxx/article/details/124895482

版权

本文介绍了如何将Python环境打包并部署到Spark集群中，以避免在每个节点上单独安装和维护环境。首先，通过Anaconda创建并激活Python虚拟环境，安装所需的依赖。接着，将虚拟环境打包成zip文件并上传到HDFS。最后，修改Spark提交脚本，指定使用HDFS上的虚拟环境执行pyspark任务。这种方法简化了集群维护，提高了可移植性。

摘要由CSDN通过智能技术生成

一、背景说明

　　单机执行pyspark（python on spark）非常简单，只要在脚本所在服务器上部署个python环境或Anaconda这种集成运行环境，再通过python3命令执行就完了。

　　而想将python提交到spark集群中运行，则有两种方法，一种是在每个spark结点上部署python环境，在spark低版本与python集成没那么完善的时候，集群结点数又不多的情况下，的确可以这么干（实际上我就这么干过），这种方式比较大的优势是每次执行pyspark任务时，不用分发python环境，会比接下来说的第二种方法快那么一丢丢。而缺点就显而易见的，就是太难维护了：python环境增加依赖时，需求每个结点都安装依赖；集群添加新spark结点时，又要另外部署python环境。这不是扯蛋吗？

　　在经历了第一种方式的折磨后，终于用上了第二种方法，就是先将python环境打包放到HDFS中，然后稍微修改一下执行脚本，即可方便地以集群的方式执行pyspark脚本了。

　　以下以使用Anaconda为例构建python虚拟环境，其他虚拟环境大同小异。

二、构建python虚拟环境

　　1、到anaconda官网下载anaconda；（我下载的是Anaconda3-2019.10-Linux-x86_64.sh）；

　　2. 在该目录下，执行Anaconda3-2019.10-Linux-x86_64.sh ，安装A

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。