Hadoop系列 (五):MapReduce详细介绍

本文详细介绍了Hadoop MapReduce的概念、工作原理,包括MapReduce架构、执行过程,尤其是Map和Reduce任务的执行细节,以及Shuffle过程的Map端和Reduce端执行流程。通过对MapReduce的学习,读者可以深入了解大数据处理的关键步骤。
摘要由CSDN通过智能技术生成

Hadoop系列文章

Hadoop(一):在CentOS中搭建hadoop环境(伪分布式)

Hadoop(二):完全分布式搭建(腾讯云服务器+阿里云服务器)

Hadoop系列 (三):HDFS详细介绍

Hadoop系列 (四):Yarn详细介绍

Hadoop系列 (五):MapReduce详细介绍

Hadoop系列 (六):Spark搭建

Hadoop系列 (七):ZooKeeper详细介绍

MapReduce概念

Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。

MapReduce擅长处理大数据,思想就是分而治之

Mapper负责“分”,即把复杂的任务分解为若干个简单的任务来处理:

  1. 缩小原任务的数据计算规模。
  2. 就近计算原则,任务会分配到存放着所需数据的节点上进行计算。
  3. 这些小任务可以并行计算,彼此间几乎没有依赖关系

Reducer负责对map阶段的结果进行汇总,Reducer个数,通过mapred-site.xml配置文件里设置参数mapred.reduce.tasks的值,默认值为1。

MapReduce工作原理

MapReduce这个术语来自两个基本的数据转换操作:map过程和reduce过程。

map过程:

即键值对的转换。map操作会将集合中的元素从一种形式转化成另一种形式,在这种情况下,输入的键值对会被转换成零到多个键值对输出。

reduce过程:

某个键的所有键值对都会被分发到同一个reduce操作中,也就是说,这个键和这个键所对应的所有值都会被传递给同一个Reducer。reduce过程的目的是将值的集合转换成一个值(例如求和或者求平均),或者转换成另一个集合。这个Reducer最终会产生一个键值对

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值