MapReduce 技术基础介绍(一)

本文介绍了MapReduce的基本概念和工作原理,包括Map和Reduce任务的执行过程,以及JobTracker、TaskTracker等关键组件的角色。MapReduce是Google提出的分布式计算框架,用于处理大规模数据集,Hadoop中的MapReduce与HDFS紧密关联,为各种应用如Hive、Pig等提供计算基础。MapReduce通过分治法将任务分解,由JobTracker管理和协调Job的执行,TaskTracker在从节点上执行Map和Reduce任务。此外,文章还解释了InputFormat、OutputFormat、分片、RecordReader、Combiner等核心概念。
摘要由CSDN通过智能技术生成

第一部分、MapReduce是什么 


       狭义的讲MapReduce最早是由Google提出的一种运行在成百上千台计算机上的分布式计算框架,Google运用该框架对大规模数据集的并行批处理问题。当然在Hadoop中,分布式文件系统很大程度上为MapReduce进行了优化,从这个角度说HDFS也可以看作是MapReduce计算中的一部分。下图反映了MapReduce在Hadoop生态系统中的基础地位,从图中可以看到 MapReduce在生态系统中处于底层,与HDFS紧密关联, Hive、Pig、Mahout等诸多应用都直接依赖于MapReduce来完成。

 


    MapReduce中包含了两个主要概念Map(映射)与Reduce(化简)来自于函数式编程语言的思想。通常在框架下实现特定应用需要指定一个Map函数,该函数把输入映射成为一组键值对,同时需要指定一个Reduce函数,该函数把所有Map函数产生的键值对按照键相同分组分别处理每组值生成输出。从Map与Reduce的概念不难看出,当输入可以拆分为独立的单条记录时,利用分治法的思想就可以把输入分割,并将处理每个子集的M

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值