记录: map-reduce design pattern
初始化应该尽可能放到 configure中
例子1.word count
优缺点:
===================================
Combiner Design
(mean1+mean2)/cnt = mean
combiner可能运行 也可能不运行
=======================================================================
新的思路:压缩pair
两中方法的比较 stripes 较好的线性扩展性
机器数量的影响
====================================================================
===============
==================================
总结:
摘录自:
Massive Data Processing/Cloud Computing