MapReduce1.0原理

这篇文章给大家分享一下MapReduce的相关情况

1.什么是MapReduce?它在Hadoop中处在一个什么样的位置?它的核心特征是什么?

首先个人认为MapReduce就像一个百变女郎,不同的视角你会看到不一样的它。

1)从无太深技术背景普通使用者角度看,它是一个批量查询处理器;

      从程序员角度来看,它是一个类、一个方法/函数,开始时Mapper和Reducer都是继承了MapReduceBase基类,然后分别实现了Mapper与Reducer接口,后来又从接口变成了抽象类(当然如果您自己写的MapReduce使用的不是Java语言,那可能就有出入);

      从模型角度来看,它是一种问题处理查询、文件计算的框架模型,是将人们的想法从逻辑模型转变成了物理模型

2)MapReduce是Hadoop中除了负责存储的HDFS以外,另一个核心组件,即负责分析处理数据。它俩的完美结合就实现了数据从输入到处理再到输出存储的整合闭环服务。

3)而数据本地化(data locality)就是MapReduce的核心特征。data locality是为了尽可能的降低IO通信次数。一个计算节点尽可能处理其本地磁盘上所分布存储的数据,如果无法进行本地化数据处理时,就需要找寻数据所在的本地机架上其他可用节点,并将计算数据通过网络传送给该节点,如果还是不行,那就需要从其他机架上找寻并传输数据,这样会有较大的IO延迟。但最终的目的都是为了将所需处理的数据拿给当前计算节点进行计算处理。

2.MapReduce过程中涉及到的部分名词是什么情况?job、task、map、reduce、jobtracker、tasktracker、partition等,他们的关系是怎样的?

1)job即所需处理的数据作业。系统自动将一个待处理的大数据量作业(job)划分为很多个数据块,默认的是64M,每个数据块对应于一个计算任务(task)。

2)jobtracker,可将job理解为一个拣货员,他会将一个job所需的所有资源都准备好放到某一个文件夹里然后将其放在等待被调度的队列里,这个文件夹里存放了将要运行作业所需要的资源,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息,然后等待着被调起运行。jobtracker会进行初始化job操作。

3)tasktracker,顾名思义就是计算任务的作业调度,是用来监测控制map与reduce的,同时他会及时将当前任务的运行状态等信息反馈给jobtracker。也就是说jobtracker是一个需求公司,tasktracker就是一个承包商。

4)partition:每一个reduce节点会分派到中间输出的键集合中的一个不同的子集合,这些子集合(被称为“partitions”)是reduce任务的输入数据。每一个map任务生成的键值对可能会隶属于任意的partition,有着相同键的数值总是在一起被reduce,不管它是来自那个mapper的。因此,所有的map 节点必须就把不同的中间数据发往何处达成一致。Partitioner 类就是用来决定给定键值对的去向,默认的分类器(partitioner)会计算键的哈希值并基于这个结果来把键赋到相应的partition上。

5)shuffle(洗牌):当第一个map任务完成后,节点可能还要继续执行更多的map 任务,但这时候也开始把map任务的中间输出交换到需要它们的 reducer那里去,这个移动map输出到 reducer 的过程叫做shuffle

6)排序(sort):每一个reduce任务负责归约(reduceing)关联到相同键上的所有数值,每一个节点收到的中间键集合在被送到具体的reducer那里前就已经自动被排序过了

7)combiner:是一个“迷你reduce”过程,它只处理单台机器生成的数据,Combiner的作用就是对map端的输出先做一次合并,它在Mapper之后 Reducer之前运行。Combiner是可选的,如果这个过程适合于你的作业,Combiner 实例会在每一个运行map任务的节点上运行。combiner会接收特定节点上的 Mapper 实例的输出作为输入,接着 combiner 的输出会被发送到Reducer那里,而不是发送Mapper的输出。,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。combiner可能被执行也可能不被执行,如果当前集群在很繁忙的情况下job就是设置了也不会执行combiner。

8)reporter:是用于Map/Reduce应用程序报告进度,设定应用级别的状态消息, 更新Counters(计数器)的机制。 Mapper和Reducer的实现可以利用Reporter 来报告进度,或者仅是表明自己运行正常。在那种应用程序需要花很长时间处理个别键值对的场景中,这种机制是很关键的,因为框架可能会以为这个任务超时了,从而将它强行杀死。另一个避免这种情况发生的方式是,将配置参数mapred.task.timeout设置为一个足够高的值(或者干脆设置为零,则没有超时限制了)。 应用程序可以用Reporter来更新Counter(计数器)。 

3.核心:MapReduce是怎么工作的呢?

​​​​​​​后续会补充一些日志分析、判断、处理任务运行慢、数据倾斜等常见问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值