Hadoop学习笔记(五)MapReduce

本文详细介绍了Hadoop MapReduce的概念、优缺点、架构和编程模型。MapReduce源于Google的论文,适用于海量数据的离线处理,其框架简化了开发过程,但不适用于实时流式计算。MapReduce作业被拆分为map和reduce阶段,数据以键值对的形式传递。Job配置包括输入输出路径和map/reduce函数。MapReduce框架包含ResourceManager、NodeManager和MRAppMaster。MapReduce处理过程包括InputFormat拆分输入、RecordReader读取数据、Mapper处理、Partitioner分区、Reducer聚合输出,最后由OutputFormat写入结果。MapReduce1.x包含JobTracker和TaskTracker,而2.x则使用ResourceManager和NodeManager。
摘要由CSDN通过智能技术生成

MapReduce概述

源自于Google的MapReduce论文,发表于2004年12月
Hadoop MapReduce是Google MapReduce的克隆版
MapReduce优点:海量数据的离线处理、易开发、易运行。
所谓海量数据,说明MapReduce可以处理的数据量非常大,离线处理说明MapReduce跟实时响应不同,用户将作业提交,系统按批次进行处理,由于数据量大,自然非常耗时。

所谓易开发,如果我们自己要实现这样的分布式应用程序的话需要考虑很多东西,比如如何对文件进行拆分、如何处理节点故障问题,MapReduce框架在内部已经封装好了这些问题,我们只要把重心关注在应用逻辑的处理上就行了。

所谓易运行,当然这个易运行是相对的。

MapReduce缺点:无法满足实时流式计算
MapReduce的作业是非常耗时的,不可能实时处理数据;流式计算也是无法满足的,我们之前看过MapReduce的处理图,它的各个流程是由依赖关系的,也就是说如果map没做完,那么reduce也做不了。

Hadoop官网是这么介绍MapReduce框架的:

Overview
Hadoop MapReduce is a software framework for easily writin

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知无(import_bigdata)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值