MapReduce

MapReduce

MapReduce是一种面向大规模数据处理的、分布式运算程序的编程框架。它通过将实际业务逻辑代码+自带默认组件的方式实现在Hadoop集群上的分布式计算。

MapReduce的优势

1. 易于编程

MapReduce框架将整个分布式的过程都进行了封装,用户只需要根据自己的实际业务,对简单的接口进行实现,就可以达到非常理想的目的。

2. 扩展性好

若计算资源不足时,可直接添加机器来提高计算力。

3. 容错率高

如果正在运行的节点发生了意外,可以把任务交给集群中另一个节点上运行,这个调度方法可直接由Hadoop内部完成,不需要人工干预。

MapReduce的劣势

1. 不擅长实时计算

MapReduce无法像 MySQL一样,在毫秒或者秒级内返回结果。

2. 不擅长流式计算

MapReduce无法处理在线产生的数据,只能处理离线数据。

3. 不擅长DAG(有向无环图)计算

多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce 并不是不能做,而是使用后,每个 MapReduce 作业的输出结果都会写入到磁盘,会造成大量的磁盘 IO,导致性能非常的低下。
资料来源:尚硅谷

MapReduce流程

MapReduce字如其名,其思想最主要的流程分为两大块,Map和Reduce。其中,map将数据分成几份并行计算,Reduce将map的结果统一。
在这里插入图片描述
但如果要将上述流程细分,则应该分成以下几步:

1. InputFormat切片阶段

  • 首先,客户端会将数据分成多个数据切片,并由ApplicationMaster分配给相同数量的MapTask,一个数据切片
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值