spark之ETL调度 - crontab命令调度

1、概述

主要通过crontab编写定时任务,调度shell脚本,shell脚本起调py脚本

2、crontab配置定时任务

--每天八点定时调度,插入执行日志到指定文件
00 08 * * * /usr/bin/sh 
/home/work/shell/main_worklog.sh > /home/work/logs/cron_’date+\%Y\%m\%d’.log

3、shell配置环境变量,然后起调python任务

#!/bin/sh
export SPARK_HOME=/../spark-2.1.1-bin-hadoop2.6
export JAVA_HOME=/../jdk1.8.0_162
export PATH=$JAVA_HOME/bin:$PATH

/../python  /../main_workflow.py

4、循环执行spark作业

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import datetime
import os

#传入日期参数,便于回溯数据,
if len(sys.argv) < 2:
    today = datetime.datetime.today()
    oneday = datetime.timedelta(days=1)
    yesterday = today - oneday
    datestr = yesterday.strftime("%Y%m%d")
else:
    datestr= sys.argv[1]           

#配置环境变量
os.system("export PYTHONIOENCODING=utf8")
os.system("export SPARK_HOME=/usr/local/spark-2.1.1-bin-hadoop2.6")
os.system("export JAVA_HOME=/usr/local/jdk1.8.0_162/")
os.system("export PATH=$JAVA_HOME/bin:$PATH")

#调起spark任务,执行job		
os.system("/usr/local/spark-2.1.1-bin-hadoop2.6/bin/spark-submit   --master yarn --deploy-mode client  --queue root.production.userprofile  --driver-memory 1g  --executor-memory 8g --executor-cores 2 --num-executors 50  /home/userprofile/userprofile_cookieid_gender.py " + datestr)
os.system("/usr/local/spark-2.1.1-bin-hadoop2.6/bin/spark-submit   --master yarn --deploy-mode client  --queue root.production.userprofile --driver-memory 1g  --executor-memory 4g --executor-cores 2 --num-executors 50  /home/userprofile/userprofile_cookieid_country.py  " + datestr)
os.system("/usr/local/spark-2.1.1-bin-hadoop2.6/bin/spark-submit   --master yarn --deploy-mode client  --queue root.production.userprofile --driver-memory 1g  --executor-memory 4g --executor-cores 2 --num-executors 50  /home/userprofile/userprofile_cookieid_install_days.py  " + datestr)
os.system("/usr/local/spark-2.1.1-bin-hadoop2.6/bin/spark-submit   --master yarn --deploy-mode client  --queue root.production.userprofile --driver-memory 1g  --executor-memory 4g --executor-cores 2 --num-executors 50  /home/userprofile/userprofile_cookieid_last_paid_days.py  " + datestr)
os.system("/usr/local/spark-2.1.1-bin-hadoop2.6/bin/spark-submit   --master yarn --deploy-mode client  --queue root.production.userprofile --driver-memory 1g  --executor-memory 4g --executor-cores 2 --num-executors 50  /home/userprofile/userprofile_cookieid_purchase_state.py  " + datestr)
os.system("/usr/local/spark-2.1.1-bin-hadoop2.6/bin/spark-submit   --master yarn --deploy-mode client  --queue root.production.userprofile --driver-memory 1g  --executor-memory 4g --executor-cores 2 --num-executors 50  /home/userprofile/userprofile_cookieid_registed_state.py  " + datestr)
os.system("/usr/local/spark-2.1.1-bin-hadoop2.6/bin/spark-submit   --master yarn --deploy-mode client  --queue root.production.userprofile --driver-memory 4g  --executor-memory 8g --executor-cores 2 --num-executors 50  /home/userprofile/userprofile_userid_edm.py " + datestr)

# 预警监控,检查异常
os.system("/usr/local/spark-2.1.1-bin-hadoop2.6/bin/spark-submit   --master yarn --deploy-mode client --queue root.production.userprofile --driver-memory 4g --executor-memory 8g --executor-cores 2 --num-executors 50  /home/userprofile/checkdata_cookieid.py " + datestr)
os.system("/usr/local/spark-2.1.1-bin-hadoop2.6/bin/spark-submit   --master yarn --deploy-mode client --queue root.production.userprofile --driver-memory 4g  --executor-memory 8g --executor-cores 2 --num-executors 50  /home/userprofile/checkdata_userid.py " + datestr)




  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
ETL(Extract, Transform, Load)调度工具在处理数据方面具有以下优势: 1. 自动化和可编排:ETL调度工具可以自动执行数据抽取、转换和加载的任务,减少了人工操作和手动干预的需求。通过可编排的工作流程,可以定义任务之间的依赖关系和执行顺序,实现自动化的数据处理流程。 2. 时间和资源优化:ETL调度工具可以根据设定的时间表和优先级来执行任务,确保数据处理在最佳的时间段内完成。可以利用闲时或非高峰期执行任务,避免对生产环境和用户操作造成影响。此外,ETL调度工具可以优化资源利用,根据服务器性能和负载情况进行任务分配和并行处理,提高效率。 3. 容错和恢复能力:ETL调度工具通常具备容错和恢复能力,能够在任务失败或中断时自动重新尝试或触发报警机制。可以配置错误处理策略,如跳过错误记录、记录错误日志等,以确保数据处理的稳定性和完整性。 4. 监控和可视化:ETL调度工具提供监控和可视化功能,可以实时跟踪任务的执行状态、运行日志和性能指标。通过仪表板或报表,可以直观地查看任务的运行情况、数据质量和处理效果,便于及时发现和解决问题。 5. 扩展性和灵活性:ETL调度工具通常支持多种数据源和目标系统,可以适应不同的数据处理需求。可以通过配置和定制来满足特定场景的要求,如数据过滤、转换规则、数据映射等。同时,ETL调度工具还支持扩展插件和自定义脚本,方便与其他工具和系统进行集成。 总体而言,ETL调度工具在处理数据时能够提高效率、减少人工工作量,并保证数据的准确性和一致性。它们是大规模数据处理和数据集成的重要工具,广泛应用于企业的数据仓库、商业智能和数据分析等领域。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

随缘清风殇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值