目录
1 数据成本不断升高
- 数据上线容易下线难
任务不敢轻易下线,但又存在不需要的任务
- 低价值的数据应用消耗了大量的资源
有些表甚至宽表占用资源,但下游却没什么重要产出
- 烟囱式的开发模式
模型设计不合理,表不能复用,对表重复开发加工
- 数据倾斜
浪费大量计算资源
- 数据未设置生命周期
导致一些汇总层或者明细层数据越来越多,需要更大的存储空间
- 调度周期不合理
所有任务都在同一时间点开始,一瞬间资源不够,但是其他时间点资源又用不到,我们可以错峰执行,一般大数据凌晨是高峰期,产出核心任务即可
- 任务参数配置
一些通过参数请求资源的任务,比如spark这种,设置不需要的过大的资源导致浪费
- 数据未压缩
更大的存储需要磁盘空间