运行python版本的Spark程序

最新推荐文章于 2024-07-08 15:09:49 发布

houmou

最新推荐文章于 2024-07-08 15:09:49 发布

阅读量1.1w

点赞数 7

分类专栏： Spark python 文章标签： python spark

本文链接：https://blog.csdn.net/houmou/article/details/50925573

版权

本文介绍了两种运行Python版本Spark程序的方法：通过spark-submit解释执行和使用Python解释执行。在spark-submit方式中，需在python脚本开头导入Spark模块，并使用spark-submit提交。而在Python解释执行时，由于缺少pyspark和py4j模块，需要设置PYTHONPATH环境变量。

摘要由CSDN通过智能技术生成

两种方法：

使用 spark-submit 解释执行python脚本
使用 python 解释执行python脚本

1. 使用Spark-submit解释执行python脚本

python脚本中需要在开头导入spark相关模块，调用时使用spark-submit提交，示例代码如下：

===========================================================

"""odflow.py"""
from pyspark import SparkContext

fileDir = "/TripChain3_Demo.txt"
# sc = SparkContext("local", "ODFlow")
sc = SparkContext("spark://ITS-Hadoop10:7077", "ODFlow")
lines = sc.textFile(fileDir)

# python不能直接写多行的lambda表达式，所以要封装在函数中
def toKV(line):
    arr = line.split(",")
    t = arr[5].split("