1 MapReduce 是分布式计算框架 适用于离线数据计算 移动计算而不移动数据
storm适用于流式数据计算
spark是内存计算框架
2 计算框架MR
map 讲数据输出为键值对
shuffler 讲map的输出按照某种Key重新切分和组成n份,把key值符合某种条件的范围的输出送到特定reducer那里去处理
reduce 计算 程序决定reduce的个数
3 shuffler
第一步: parttition
第二步:缓存到内存中
第三步:spill sort
第四步:merge combiner
第五步:merger
4 max.split 100M
min.split 10M
block 64M
max(min/spilt,min(max.split ,block))
5 MP架构 一主多从
一个jobtracker 一般运行在master节点,在marper-site.xml中配置maperd.job.tracker
多个tasktracker 运行在datanode上
6 jps命令 查看hadoop启动的服务