Pyspark on Yarn解决pythony依赖问题及pyspark设置python3

Pyspark on Yarn解决pythony依赖问题

前期准备

安装及编译python版本3.6.8 【需要每个YARN NodeManager节点编译安装python3】

下载spark版本 2.4.5

python虚拟环境创建及打包

  • 创建python虚拟环境

  • 压缩虚拟环境

    cd /usr/local/thirdparty/
    zip -q -r ai.zip ai/
    
  • 虚拟环境put到HDFS

    hdfs dfs -put ai.zip /ai
    

pyspark设置python3

  • 修改spark-env.sh文件,新增配置

    vim spark-env.sh
    
    export PYSPARK_PYTHON=/usr/local/bin/python3
    
  • 修改bin目录下的pyspark

    vim pyspark
    
    if [[ -z "$PYSPARK_PYTHON" ]]; then
      if [[ $PYSPARK_DRIVER_PYTHON == *ipython* && ! $WORKS_WITH_IPYTHON ]]; then
        echo "IPython requires Python 2.7+; please install python2.7 or set PYSPARK_PYTHON" 1>&2
        exit 1
      else
        PYSPARK_PYTHON=python3  #修改此处
      fi
    fi
    export PYSPARK_PYTHON
    

提交spark任务

  • spark submit提交任务

    spark-submit --master yarn \
    --deploy-mode cluster \
    --archives hdfs:///ai/ai_test.zip#py3 \
    --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON='py3/ai_test/bin/python' \
    --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON='py3/ai/bin/python' \
    xxx.py
    
    --archives hdfs:///ai/ai_test.zip#py3     #py3 是一个别名,可任意取,便于spark.yarn.appMasterEnv.PYSPARK_PYTHON定位python环境
    
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值