US team 同事 开发了一个prod_dimnsn 的job ,job 之大让人很是无语 ,一个job 里面 大概用到了不下 50 个stage ,虽然只有简单的60W 数据 ,但是 真个job 里面用了 太多来的 lookup change capture ,增加了内存的开销 , 通过admin 的反馈 我们看到 最高memory 用了 98% ,所有这个job 有时候run 4 个 多小时 ,最快 20 分钟 就 应该结束的 。 当然系统上还有其他jobs 也在run
为了减少run 的时间 ,我们采用split job to small pieces 。