title: 说下最近解决的几个大的问题
date: 2022-03-05 14:27:28
tags: [数据仓库, 数据湖]
categories: 数据
说下最近工作中遇到的一些大的问题及解决方案。
1.dag任务数太多,造成调度系统调度缓慢,任务执行间隔时间长。
解决方案:
dag合并,多个dag变成一个dag,减少dag数量
另外有一个思路,将airflow调度方式改成触发机制,提高扩展性。
2.任务跨日操作,提前到上半夜进行抽取
许多数据在前半夜已经准备好,比如下午5点,等到凌晨才去运行,出现了上半夜集群空闲的情况,并且随着任务的越来越多,下半夜对集群的压力越来越大。
解决办法,将可提前的任务提前到上半夜执行,做好任务依赖检查工作。
3.数据质量检查操作
任务运行过程中,出现了一些数据异常,比如数据缺失、数据没准备好、数据重复、数据量波动较大等等异常情况,造成后期修复的困难。
解决办法:增加任务运行前、运行后的质量检查操作。
Keep reading, Keep writing, Keep coding.
欢迎关注我的微信公众号,比较喜欢分享知识,也喜欢宠物,所以做了这2个公众号:
喜欢宠物的朋友可以关注:【电巴克宠物Pets】
一起学习,一起进步。