本文为作者原创,转载请标明出处。原作者:Tony_老七 原文链接:http://blog.csdn.net/tonylee0329/article/details/27106153 最近对线上一个执行频率为半小时的任务进行优化,需要在每半个小时的前二十分钟内完成,但是因为前置大概需要执行7/8/9min,所以该job必须在10min内执行完成。 目前发现需要进行优化的较多出现在出现join、distinct的情况下,而且一般都是reduce过程较慢。