1 提交的命令
/usr/hdp/2.6.1.0-129/spark2/bin/spark-submit --master yarn-client --executor-memory 29G
–num-executors 10
–executor-cores 100
–py-files /data/data1/leopard/bdist/leopard-0.1.dev0-py2.7.egg
–conf spark.default.parallelism=200
/data/data1/leopard/DataETLFormatting.py
/data/data1/mingyangautoml/
加粗部分为egg 文件,这个egg 文件怎么来的呢?
2 生成egg
有一个 setup.py 文件
from setuptools import setup
setup(
name=‘leopard’,
version=‘0.1dev’,
packages=[‘leo/dataETL’,‘leo/service’,‘leo/config’],
license = ‘’’
Creative Commons
Attribution-Noncommercial-Share Alike license’’’,
long_description = ‘’’
An example of how to package code for PySpark’’’
)
执行命令 python setup.py bdist_egg 在dist 文件夹里生成leopard-0.1.dev0-py2.7.egg 文件。
3 注意下目录顺序
注意,启动文件即DWSDataFormatting.py 要与leo夹文件处于同一个级别