Dataworks批量刷数优化方案探讨

本文探讨了在Dataworks中优化批量刷数的两种方案。优化方案1是创建手动任务按固定周期运行,提高效率但增加了维护成本;优化方案2利用赋值节点和参数表动态指定时间范围,避免频繁创建任务,但存在并发修改参数表的风险。通过这两种方法,可以有效提升批量刷数的效率。
摘要由CSDN通过智能技术生成

Dataworks批量刷数优化方案探讨

在数据仓库的日常使用中,经常会有批量补数据,或者逻辑调整后批量重跑数据的场景。
批量刷数的实现方式,因调度工具差异而各有不同。

Dataworks调度批量刷数局限

我们的数据仓库构建在阿里云的dataworks+maxcompute产品上,dataworks的调度工具提供了补数据的功能,可以很方便的补整个任务流的数据,但是该功能有个局限,就是只能指定一个参数,即业务日期,如下图。20211102095700
如果要刷一个月的数据,比如2021年10月份,要怎么操作呢?业务日期选定时间范围2021-10-01 ~ 2021-10-31。然后dataworks会根据选定的时间范围,每天生成一个实例去执行任务补数据,也就是补数据的任务要跑31次,每次补一天的数据。20211102095723
这样就会导致整个补数的过程非常缓慢,且耗资源。

  1. 因为maxcompute是基于hive的&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值