python写spark_spark-submit提交python任务

1、提交python文件,遇到的难点是python文件缺乏运行所需要的依赖模块。

python3 -m pip install xx

我使用的是将anaconda打包放在HDFS上。

基础是已经有同事在linux服务器上安装好了anaconda2,很方便。

首先是将文件夹,打包成zip格式: zip -r  anaconda2.zip anaconda2。然后上传文件至HDFS服务器。

对于缺乏的模块,可以使用conda 或者pip进行添加。

最后是运行命令

spark-submit  \

--master yarn \

--deploy-mode client \

--num-executors 4 \

--executor-memory 5G \

--archives hdfs:///anaconda2.zip#anaconda2 \

--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./anaconda2/anaconda2/bin/python2 \

test.py

spark-submit使用指定的python环境

参考spark Configuration,有如下描述:

配置                                           描述

spark.pyspark.driver.python    Python binary executable to use for PySpark in driver. (default is spark.pyspark.python)

spark.pyspark.python    Python binary executable to use for PySpark in both driver and executors.

使用--conf指定python环境:

--conf "spark.pyspark.driver.python=/path/to/envs/bin/python3.7" \

--conf "spark.pyspark.python=/path/to/envs/bin/python3.7" \

根据描述,为了保证驱动器和执行器的python环境一致,只指定 spark.pyspark.python即可。

2、python脚本编写注意事项

写python脚本时,有两点需要注意一下(我目前就知道这两点,实际需要注意的地方可能更多)

脚本中需要创建SparkContext环境

from pyspark import SparkContext

sc=SparkContext(appName='first app')

SparkContext()函数有很多参数可以设置,详情参考这里,我这里只是添加应用名称说明

在python脚本中,有时需要添加库依赖、使用import导入,所有的这些导入操作都必须在SparkContext环境创建完成之后

下面贴一下我测试时写的简单的demo,这个代码的作用是计算text.txt中包含字符“i”的行数

# -*- coding:utf-8 -*-

#firstApp.py

if __name__=="__main__":

from pyspark import SparkContext

sc=SparkContext(appName='firt app')

word=sc.textFile('file:///home/hadoop/Download/test/test.txt')

num_i=word.filter(lambda s:'i' in s).count()

print(num_i)

这段代码中没有依赖额外的库,所以也就没有导入

提交python脚本,在提交firstApp.py脚本时,使用如下指令

$ spark-submit \

--master local[2] \

--num-executors 2 \

--executor-memory 1G \

/home/hadoop/Download/test/firstApp.py

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值