hadoop Mapreduce组件介绍
MapReduce原理
MapRedcue采用‘分而治之’的思想,对大规模数据集的操作,分发给一个主节点下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。Mapreduce就是任务的分解,与结果的汇总
MapReduce任务机器有两个一个是jobTracker,另一个是TaskTracher,JobTracker用于调度的工作,TaskTracher用于执行工作,一个hadoop集群只有一个JobTracker。
在分布式计算中,MapReduce框架负责处理了并行编程中分布式存储、工作调度、负载均衡、容错均衡、容错处理以及网络通信等复杂问题,把处理过程高度抽象为两个函数:map和reduce,map负责把任务分解成多个任务,reduce负责把分解后多任务处理的结果汇总起来。
输入--拆分--映射--归并---计算--结果


本文详细介绍了Hadoop MapReduce的基本原理及其在分布式计算中的应用。MapReduce通过将任务分解并分配到多个节点上执行,再将结果汇总的方式,解决了大规模数据集处理的问题。文中还解释了MapReduce如何简化并行编程中的复杂问题。
1951

被折叠的 条评论
为什么被折叠?



