如何将编写的py文件提交到spark并在集群下执行job

本文介绍了如何在没有Java背景的情况下,通过Python快速对接Spark进行集群运算。首先,通过在Spark安装目录的bin文件夹下执行特定命令提交Python文件。在使用过程中,要注意集群上所有节点的Python环境及包依赖必须保持一致。此外,可以在.py文件中的sparksession配置中指定集群参数。常见坑点包括环境不一致和包依赖问题,需谨慎处理。
摘要由CSDN通过智能技术生成

没学过java的时候用Spark可能一开始就会直接用Python对接,因为如果是创建scala语言的话,会存在很多问题,包括生成scala类或者object,以及最终在idea里面编译成jar包,因为需求紧急,所以就直接用Python来写了,那么将写完的 python文件如果只是在某个集群中的一台机器上运行,那么会发现实际整个运转都是在本地执行的,并没有做到集群运算,所以这里需要使用的就是进入到spark安装目录的bin文件夹下,然后执行以下命令进行运行 。

 ./spark-submit --master spark://master:7077 /data/lin/code/RDD_rdad.py 

 

然后提交后可以在spark master界面看到任务

然后总结下在使用spark集群环境的时候遇到的坑

1. 因为本人是使用的python下的pyspark来进行的调度,那么就需要用到python环境,这里需要注意的就是第一所有集群上的python环境要一致, 

2. 包依赖的问题也是,要一致  

3.提交到集群运行的时候除了在spark-submit中指定外,还可以在.py文件中的sparksession中指明,指定规范如下:

def CreateSparkContext():
    # 构建SparkSession实例对象
 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值