说下最近解决的几个大的问题


title: 说下最近解决的几个大的问题
date: 2022-03-05 14:27:28
tags: [数据仓库, 数据湖]
categories: 数据

说下最近工作中遇到的一些大的问题及解决方案。

1.dag任务数太多,造成调度系统调度缓慢,任务执行间隔时间长。
解决方案:
dag合并,多个dag变成一个dag,减少dag数量
另外有一个思路,将airflow调度方式改成触发机制,提高扩展性。

2.任务跨日操作,提前到上半夜进行抽取
许多数据在前半夜已经准备好,比如下午5点,等到凌晨才去运行,出现了上半夜集群空闲的情况,并且随着任务的越来越多,下半夜对集群的压力越来越大。
解决办法,将可提前的任务提前到上半夜执行,做好任务依赖检查工作。

3.数据质量检查操作
任务运行过程中,出现了一些数据异常,比如数据缺失、数据没准备好、数据重复、数据量波动较大等等异常情况,造成后期修复的困难。
解决办法:增加任务运行前、运行后的质量检查操作。


Keep reading, Keep writing, Keep coding.

欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:
程序员写书

喜欢宠物的朋友可以关注:【电巴克宠物Pets】
电巴克宠物

一起学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

chenzuoli

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值