pyspark提交集群任务

52 篇文章 10 订阅

 

1.打包python环境

建议使用conda

 

conda克隆环境

 

conda create -n prod_env --clone base

 

进入conda的miniconda3/envs

 

# 打包python环境

 

zip -r prod_env.zip  prod_env

  

 

2.提交任务

sh脚本

 

export PYSPARK_DRIVER_PYTHON=xxxx/envs/prod_env/bin/python3

export PYSPARK_PYTHON=./ENV/prod_env/bin/python3

spark-submit \

--master yarn \

--deploy-mode client \

--archives prod_env.zip#ENV \  #这里是注释 会上传本地的prod_env.zip到hdfs上,作为缓存,运行时会解压到ENV目录,程序结束后自动删除; 如果python的库变动不大,可以提前做好zip包上传到hdfs上,然后指定hdfs:///your-path

--conf spark.driver.host=ip地址 \  # 此处是避免集群与client通信失败,默认绑定的是主机名

hello.py

  

hello.py

from pyspark import SparkConf

from pyspark.sql import SparkSession

 

print("==========app start=========")

spark = SparkSession.builder.enableHiveSupport().getOrCreate()

df = spark.sql('show databases')

df.show()

print("==========app stop=========")

spark.stop()

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值