通过pyspark提交多个执行文件和文本文档

最新推荐文章于 2024-05-03 13:44:28 发布

还是小白的鹏哥

最新推荐文章于 2024-05-03 13:44:28 发布

阅读量4.8k

点赞数 3

分类专栏： pyspark 文章标签： pyspark pyspark提交多任务 pyspark提交文本文档

本文链接：https://blog.csdn.net/weixin_42649077/article/details/84976960

版权

pyspark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

通过pyspark提交多个执行文件和文本文档

直接上代码
spark-submit
–master yarn-cluster
–conf spark.pyspark.python=/opt/Anaconda3/bin/python3
–conf spark.pyspark.driver.python=/opt/Anaconda3/bin/python3
–py-files /home/dev/empcl/wp/code/GPS/fence3.py
–files /home/dev/empcl/wp/data/GPS
/home/dev/empcl/wp/code/read_lzo2.py
说明

--py-files /home/dev/empcl/wp/code/GPS/fence3.py

提交主程序依赖的py文件，如果有多个py文件需要导入，可以直接把多个文件放入文件夹中打包成.zip文件
如上面我的代码是一个fence3.py文件，在主程序read_lzo2.py中直接导入即可

//read_lzo2.py
from pyspark.sql.session import SparkSession
import sys
import os
import fence3

若是多个文件如文件夹 fence中包含fence3.py和fence4.py代码改成
–py-files /home/dev/empcl/wp/code/GPS/fence.zip \

//read_lzo2.py
from pyspark.sql.session import SparkSession
import sys
import os
from fence import fence3
from fence import fence4

  --files /home/dev/empcl/wp/data/GPS

主要用来携带需要传到各个节点的文本或者其他文件，之前一直想把文本文档和代码封装在一起打成类似jar包的东西，但是一直找不到，后来想把文本文档传到集群上去，但是我的fence3.py的文件是用python的模块处理的，如果传到集群只能用spark的框架，数据读取到结点python的类似pandas的模块不能处理，只能处理spark collect回来的数据，后来去官方文档找到了 --files，困扰了我挺长一段时间。
代码获取当前文档不用加任何路径直接文件名即可：

//fence3.py
def data_transform(self):
	with open('GPS','r', encoding='utf-8') as json_file:
		model = json.load(json_file)
    return model

还是小白的鹏哥

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
通过pyspark提交多个执行文件和文本文档

通过pyspark提交多个执行文件和文本文档直接上代码spark-submit –master yarn-cluster –conf spark.pyspark.python=/opt/Anaconda3/bin/python3 –conf spark.pyspark.driver.python=/opt/Anaconda3/bin/python3 –py-files /home/de...
复制链接

扫一扫