Map的最终效果是什么样(如何让Map达到最优)
Map端的最高效率是:尽量减少环形缓冲区flush的次数(减少磁盘IO 的使用次数)
如何能够减少环形缓冲区flush的次数:
1、加大环形缓冲区的内存
2、增大缓冲区阈值的大小 (考虑剩余的空间是不是够系统使用)
3、对输出的进行压缩(压缩-解压的过程会消耗CPU)
Reduce端的最高效率是:
尽量减少环形缓冲区flush的次数
尽量将所有的数据在内存中计算
集群优化
在网络带宽、磁盘IO是瓶颈的前提下==
能不使用IO 网络就不使用,在必须使用的前提下,能少用就少用。
所有的,只要能够减少网络带宽的开销,只要能够减少磁盘io的使用的次数的配置项,都是集群调优的可选项。
(可选项包括: 软件层面【系统软件和集群软件】,硬件层面,网络层面)