如何将编写的py文件提交到spark并在集群下执行job

最新推荐文章于 2024-07-20 00:19:29 发布

幸运的Alina

最新推荐文章于 2024-07-20 00:19:29 发布

阅读量2.9k

点赞数 1

分类专栏： Spark学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27575895/article/details/92966477

版权

本文介绍了如何在没有Java背景的情况下，通过Python快速对接Spark进行集群运算。首先，通过在Spark安装目录的bin文件夹下执行特定命令提交Python文件。在使用过程中，要注意集群上所有节点的Python环境及包依赖必须保持一致。此外，可以在.py文件中的sparksession配置中指定集群参数。常见坑点包括环境不一致和包依赖问题，需谨慎处理。

摘要由CSDN通过智能技术生成

没学过java的时候用Spark可能一开始就会直接用Python对接，因为如果是创建scala语言的话，会存在很多问题，包括生成scala类或者object,以及最终在idea里面编译成jar包，因为需求紧急，所以就直接用Python来写了，那么将写完的 python文件如果只是在某个集群中的一台机器上运行，那么会发现实际整个运转都是在本地执行的，并没有做到集群运算，所以这里需要使用的就是进入到spark安装目录的bin文件夹下，然后执行以下命令进行运行。

 ./spark-submit --master spark://master:7077 /data/lin/code/RDD_rdad.py

然后提交后可以在spark master界面看到任务

然后总结下在使用spark集群环境的时候遇到的坑

1. 因为本人是使用的python下的pyspark来进行的调度，那么就需要用到python环境，这里需要注意的就是第一所有集群上的python环境要一致，

2. 包依赖的问题也是，要一致

3.提交到集群运行的时候除了在spark-submit中指定外，还可以在.py文件中的sparksession中指明，指定规范如下：

def CreateSparkContext():
    # 构建SparkSession实例对象

最低0.47元/天解锁文章

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。