数据仓库之【商品订单数据数仓】11:任务调度:Crontab任务调度器、Azkaban调度器、数仓使用Azkaban

57 篇文章 2 订阅 ¥59.90 ¥99.00
37 篇文章 0 订阅 ¥59.90 ¥99.00

一、任务调度

针对数据仓库中的任务脚本我们前面已经整理过了,任务脚本还是比较多的,针对初始化表的脚本只需要执行一次即可,其它的脚本需要每天都执行一次,这个时候就需要涉及到任务定时调度了。

二、Crontab调度器的使用

咱们前面在学习Linux的时候学过一个crontab调度器,通过它可以实现定时执行指定的脚本。
针对我们这个数据仓库中的这些脚本使用crontab进行调度是可以的。

但是需要注意一点:这些任务之间是有一些依赖关系的,从大的层面上来说,dwd层的任务需要等ods层的任务执行成功之后才能开始执行。

那crontab如何知道任务之间的依赖关系呢?
crontab是无法知道任务之间的依赖关系的,我们只能间接实现
举个例子:针对MapReduce任务和Spark任务,任务执行成功之后,在输出目录中会有一个success标记文件,这个文件表示这个任务成功的执行结束了。

此时如果我们使用crontab调度两个job,一个jobA,一个jobB,先执行jobA,jobA成功执行结束之后才能执行jobB,这个时候我们就需要在脚本中添加一个判断,判断jobA的结果输出目录中是否存在success文件,如果存在则继续执行jobB,否则不执行,并且告警,提示jobA任务执行失败。

那我们现在执行的是hive的sql任务,sql任务最终不会在输出目录中产生success文件,所以没有办法使用这个标记文件进行判断,不过sql任务会产生数据文件,数据文件的文件名是类似000000_0这样的,可能会有多个,具体的个数是由任务中的reduc

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

做一个有趣的人Zz

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值