pyspark 引入自定义的egg模块

最新推荐文章于 2021-12-15 22:21:06 发布

北京下雨天

最新推荐文章于 2021-12-15 22:21:06 发布

阅读量383

点赞数

分类专栏：大数据文章标签： python 大数据 spark

本文链接：https://blog.csdn.net/weixin_42237388/article/details/114270187

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1 提交的命令

/usr/hdp/2.6.1.0-129/spark2/bin/spark-submit --master yarn-client --executor-memory 29G
–num-executors 10
–executor-cores 100
–py-files /data/data1/leopard/bdist/leopard-0.1.dev0-py2.7.egg
–conf spark.default.parallelism=200
/data/data1/leopard/DataETLFormatting.py
/data/data1/mingyangautoml/
加粗部分为egg 文件，这个egg 文件怎么来的呢？

2 生成egg

有一个 setup.py 文件
from setuptools import setup

setup(
name=‘leopard’,
version=‘0.1dev’,
packages=[‘leo/dataETL’,‘leo/service’,‘leo/config’],
license = ‘’’
Creative Commons
Attribution-Noncommercial-Share Alike license’’’,
long_description = ‘’’
An example of how to package code for PySpark’’’
)
执行命令 python setup.py bdist_egg 在dist 文件夹里生成leopard-0.1.dev0-py2.7.egg 文件。

3 注意下目录顺序

注意，启动文件即DWSDataFormatting.py 要与leo夹文件处于同一个级别
在这里插入图片描述

北京下雨天

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
pyspark 引入自定义的egg模块

1 提交的命令/usr/hdp/2.6.1.0-129/spark2/bin/spark-submit --master yarn-client --executor-memory 29G –num-executors 10 –executor-cores 100 –py-files /data/data1/leopard/bdist/leopard-0.1.dev0-py2.7.egg –conf spark.default.parallelism=200 /data/data1/leo
复制链接

扫一扫