Dataworks批量刷数优化方案探讨

福禄网络研发团队

于 2021-11-04 10:41:00 发布

阅读量866

点赞数

文章标签： python java 大数据数据库人工智能

本文链接：https://blog.csdn.net/fuluadmin/article/details/121155303

版权

本文探讨了在Dataworks中优化批量刷数的两种方案。优化方案1是创建手动任务按固定周期运行，提高效率但增加了维护成本；优化方案2利用赋值节点和参数表动态指定时间范围，避免频繁创建任务，但存在并发修改参数表的风险。通过这两种方法，可以有效提升批量刷数的效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Dataworks批量刷数优化方案探讨

在数据仓库的日常使用中，经常会有批量补数据，或者逻辑调整后批量重跑数据的场景。
批量刷数的实现方式，因调度工具差异而各有不同。

Dataworks调度批量刷数局限

我们的数据仓库构建在阿里云的dataworks+maxcompute产品上，dataworks的调度工具提供了补数据的功能，可以很方便的补整个任务流的数据，但是该功能有个局限，就是只能指定一个参数，即业务日期，如下图。 20211102095700
如果要刷一个月的数据，比如2021年10月份，要怎么操作呢？业务日期选定时间范围2021-10-01 ～ 2021-10-31。然后dataworks会根据选定的时间范围，每天生成一个实例去执行任务补数据，也就是补数据的任务要跑31次，每次补一天的数据。 20211102095723
这样就会导致整个补数的过程非常缓慢，且耗资源。