需求：时序数据下载到本地（2）

最新推荐文章于 2024-02-12 22:32:23 发布

QuinnJob

最新推荐文章于 2024-02-12 22:32:23 发布

阅读量109

点赞数

分类专栏： shell pyspark 文章标签： hdfs big data spark

本文链接：https://blog.csdn.net/qq_43801878/article/details/122717755

版权

shell 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

pyspark

6 篇文章 0 订阅

订阅专栏

#! /bin/bash
dayno=$1
exec > logs/download_${dayno}.log 2>&1
export PATH=/usr/local/share/hadoop/bin:$PATH
export SPARK_HOME=/usr/local/share/spark
export HADOOP_USER_NAME=dataintel   # 数据授权，是按应用组，dataintel 

# configurations
PYTHON_PATH=py37/py37/bin/python
ALG_HDFS=hdfs://alg-hdfs/user/${HADOOP_USER_NAME}

# pyspark code & package
CODE_PATH=$(dirname $(readlink -f "$0"))

# data hdfs & local
HDFS_PATH=hdfs://alg-hdfs/user/dataintel/PEEM00_data
DATA_PATH=$(dirname $(readlink -f "$0"))

${SPARK_HOME}/bin/spark-submit \
--queue root.default \
--name "${GRAPH_NAME}_${dayno}" \
--master yarn \
--deploy-mode cluster \
--driver-memory 20g \
--executor-memory 20g \
--num-executors 80 \
--executor-cores 4 \
--conf spark.port.maxRetries=1 \
--conf spark.yarn.maxAppAttempts=1 \
--conf spark.executor.memoryOverhead=4096 \
--conf spark.default.parallelism=512 \
--conf spark.yarn.appMasterEnv.DGLBACKEND=pytorch \
--conf spark.executorEnv.DGLBACKEND=pytorch \
--conf spark.driverEnv.DGLBACKEND=pytorch \
--conf spark.hadoop.validateOutputSpecs=false \
--conf spark.pyspark.python=$PYTHON_PATH \
--conf spark.pyspark.driver.python=$PYTHON_PATH \
--conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=$PYTHON_PATH \
--conf spark.driver.maxResultSize=2g \
--conf spark.hadoop.fs.defaultFS=$ALG_HDFS \
--conf spark.sql.execution.arrow.pyspark.enabled=true \
--archives hdfs://alg-hdfs/user/dataintel/tools/py37.zip#py37 \
${CODE_PATH}/download.py \
--dayno=${dayno} \
--export_hdfs_path ${HDFS_PATH}

hadoop fs -get ${HDFS_PATH}/data_${dayno}  ./data
awk 'FNR>1 || NR==1' data/data_${dayno}/part* > data/data_${dayno}.csv
echo data/data_${dayno} | xargs rm -r

QuinnJob

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
需求：时序数据下载到本地（2）

#! /bin/bashdayno=$1exec > logs/download_${dayno}.log 2>&1export PATH=/usr/local/share/hadoop/bin:$PATHexport SPARK_HOME=/usr/local/share/sparkexport HADOOP_USER_NAME=dataintel # 数据授权，是按应用组，dataintel # configurationsPYTHON_PATH=py37/py3
复制链接

扫一扫

专栏目录