传统并行计算框架和MapReduce对比:
高度抽象为两个函数:map函数和Reduce函数;
策略:分而治之(即:任务结果不依赖其他计算结果);
理念:计算向数据靠拢,而不是数据向计算靠拢;因为:大数据传输开销巨大;
Split(分片):一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理;
架构:Master/Slave架构;Master上运行JobTracker,Slave上运行TaskTracker;
Hadoop框架是用Java实现的,但是,MapReduce应用程序则不一定要用Java来写 ;
体系结构:Client、JobTracker、TaskTracker、Task;
Client:
用户编写的MapReduce程序通过Client提交到JobTracker端;
用户可通过Client提供的一些借口查看作业运行状态;
JobTracker:
JobTracker负责资源监控和