一、测试环境
DS:1.3.4
Ambari:2.6.3.0-235
提交模式:client
二、需求说明
需要使用pyspark写一个算法模型项目,通过DS进行提交训练。此算法模型项目包含多个.py文件和配置文件、模型相关文件。具体结构如下图,其中配置文件为conf/env.yml,模型文件为modelfiles/bert/bert_vocab.txt、modelfiles/bert/config.json、pytorch_model.bin。输出文件夹为output。run.py为主运行文件。
三、DS提交pyspark Client模式
(1)由于ds只能以文件级别的方式进行上传,所以此pyspark项目需要在run.py同级别打成zip包(multitask_test.zip)进行上传,要保证zip包使用解压工具进去之后所有目录级别都是在顶层,否则py之间的引用会找不到。