Hadoop优化的纸上谈兵
2020年11月6日
9:15
不考虑硬件的原因,大致的优化策略有以下:
- 数据倾斜, 找到更好的分区方法, 或者启用合理的combine
- Map和Reduce数设置不合理, 例如,太多了会崩掉
- Map运行太长, 导致Reduce等待太久, Map任务通常非常多, 应该设定Reduce开始时间, Map和Reduce并行执行.
- 小文件过多, CombineTextInput
- spill(溢写)次数过多, 增大collector容量
- merge次数, 增大megre任务个数