MapReduce适合离线计算
Storm适合流式计算,实时计算
MapReduce——移动计算 不移动数据
移动计算:把写好的计算程序分别拷贝一份到不同的机器上
HDFS上存储的数据,作为MapReduce的输入
每一个片段split,由一个map线程执行 (如何把hdfs上的文件切分成split,按照怎样的规则去切分)
例子 word count
shuffling阶段是mapper和reducer中间步骤
可以吧mapper的输出按照某种key,value重新切分和组合成n份,把key值符合某种范围的输出送到特定的ereducer去处理,可以简化reducer过程
分区、排序、溢写到磁盘,由于map输出的结果存在内存中,内存有溢值,超过这个值,就写到磁盘中
默认分区partition方式是:哈希摸运算,