pyspark使用anaconda后spark-submit方法（本人对其他文章进行的补充）

Pyspark集群任务与Anaconda环境配置

最新推荐文章于 2025-08-05 19:01:40 发布

flying_coder

最新推荐文章于 2025-08-05 19:01:40 发布

阅读量2.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Linux+anaconda3 spark

本文链接：https://blog.csdn.net/qwezhaohaihong/article/details/84772060

spark 同时被 2 个专栏收录

3 篇文章

订阅专栏

Linux+anaconda3

1 篇文章

订阅专栏

本文详述了在Pyspark集群环境中，如何通过使用自定义的Anaconda包解决Python库缺失或版本冲突的问题。通过具体实例，包括代码示例、Anaconda打包与上传至HDFS，以及spark-submit命令的详细参数设置，展示了如何确保任务运行时正确加载所需的Python环境。

在使用pyspark提交任务到集群时，经常会遇到服务器中python库不全或者版本不对的问题。此时可以使用参数–archives，从而使用自己的python包来解决。
实验步骤如下：

测试代码使用jieba做分词，但服务器上面没有此库：

import jieba

jieba.initialize()
from pyspark.context import SparkContext
from pyspark.conf import SparkConf

sc = SparkContext(conf=SparkConf().setAppName("mnist_parallelize"))

s = sc.parallelize([1,2,3,4,5])
s.saveAsTextFile('hhc')

将anaconda打包：

zip -r anaconda2.zip anaconda2/

上传到hdfs：（如果是可视化的系统，是可以直接进行拖拽操作，其次，如果anaconda安装在hdfs内，可以不需要archives参数，直接给出PYSPARK_PYTHON的路径--anaconda的python路径即可，不需要压缩anaconda）

hadoop fs -put anaconda2.zip /user/xxx/tools

python上传后，在进行spark-submit时，会自动分发anaconda2的包到各个工作节点。但还需要给工作节点指定python解压路径：

spark-submit  \
--master yarn \
--deploy-mode cluster \
--num-executors 1 \
--executor-memory 1G \
--archives hdfs:///user/xxx/tools/anaconda2.zip#anaconda2 \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./anaconda2/anaconda2/bin/python2 \
test.py

注：此时应特别注意解压路径，在anaconda2.zip在本地解压后，python的可执行路径为anaconda2/bin/python2，但在服务器上面会多一层。
---------------------

参考文章：https://blog.csdn.net/crookie/article/details/78351095 （90%内容来源于此）

本人添加了10%的内容