pycharm提交pyspark on yarn报错cannot run program python3 error=2

最新推荐文章于 2024-04-14 12:25:52 发布

nh??

最新推荐文章于 2024-04-14 12:25:52 发布

阅读量202

点赞数 2

文章标签： pycharm ide python spark

本文链接：https://blog.csdn.net/Gakk113/article/details/136965872

版权

文章讲述了作者在使用PyCharm将Spark程序提交到YARN时遇到的JavaIOException，问题在于`python3`路径错误。尽管通过`spark-submit`可以运行，但在PyCharm中未成功，寻求解决环境变量设置的方法。

摘要由CSDN通过智能技术生成

代码如下，同样的代码通过spark-submit --master yarn是可以正常运行的，但是在pycharm提交到yarn上就会报错java.io.IOException: Cannot run program “python3”: error=2, No such file or directory
查了很多资料改了环境变量都没有解决，求大神解答

#encoding:utf-8

from pyspark import SparkConf,SparkContext
import json
import os
os.environ['HADOOP_CONF_DIR'] = "/export/server/hadoop/etc/hadoop"


if __name__ == '__main__':
    # 初始化执行环境，创建SparkConf对象
    conf = SparkConf().setAppName("test").setMaster("yarn")
    sc = SparkContext(conf=conf)

    rdd_file = sc.textFile("hdfs://node1:8020/input/order.txt")

    jsons_rdd = rdd_file.flatMap(lambda line:line.split("|"))

    dict_rdd = jsons_rdd.map(lambda json_str:json.loads(json_str))

    filter_rdd = dict_rdd.filter(lambda x:x["areaName"]=="北京")

    beijing_rdd = filter_rdd.map(lambda x:x["areaName"]+"_"+x["category"])

    result_rdd = beijing_rdd.distinct()

    print(result_rdd.collect())

nh??

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pycharm提交pyspark on yarn报错cannot run program python3 error=2

代码如下，同样的代码通过spark-submit --master yarn是可以正常运行的，但是在pycharm提交到yarn上就会报错java.io.IOException: Cannot run program “python3”: error=2, No such file or directory。查了很多资料改了环境变量都没有解决，求大神解答。
复制链接

扫一扫