二 MapReduce 各阶段流程分析

最新推荐文章于 2024-05-30 16:39:23 发布

装B五分钟，挨打两小时

最新推荐文章于 2024-05-30 16:39:23 发布

阅读量169

点赞数

文章标签：大数据 hadoop java spark mapreduce

那些你很早爬起来努力的时光，那些你熬夜训练的日子，那些你觉得太累了不想努力并强迫自己但仍咬牙坚持的时光，那才是追寻梦想的意义，那就是梦想力量。但是真正的梦想不是到达终点，而是享受旅途。如果你们能够理解这个道理。你会发现，在努力的过程中。你的梦想或许会实现，或许不会。但总有一些更伟大的事情会随之而来。

本文链接：https://blog.csdn.net/cs261244787/article/details/109635463

版权

系统资源，尤其是集群内部网络资源使用情况。 MR 可以运行在共享集群上处理 TB 级甚至 PB 级的数据。同时，改作业与共享集群的机器上数以百计的任务存在竞争关系。

MapReduce 关注点：

hadoop MapReduce 作业被分成一系列运行在分布式集群中的 map 任务和 reduce 任务。因此负载是遍布集群中的各个节点的。 map 任务主要负责数据的载入、解析、转换、和过滤。每个 reduce 任务负责处理 map 任务输出结果的一个子集，然后 reduce 任务从 mapper 任务处复制 map 任务的中间数据，进行分组和聚合操作。从简单的聚合到复杂的关联以及笛卡尔积操作。

MapReduce

文件分块Block，Split读块，到Map，到Reduce的过程

下面引用的这个图特么有点问题。画错了。

Partitioner 是根据 key 或 value 及 reduce 的数量来决定当前的这对输出数据交给那个 reduce task，默认是对 key 进行 hash 后再以reduce 数量取模。是为了平均 reduce 的处理能力。Partitioner 的默认内存缓冲区是 100MB，当 mapTask输出更多结果的时候就会将数据刷入磁盘中形成临时文件，然后再次利用缓冲区进行写。就是 Spill 过程。溢写是由单独线程来完成，不影响往缓冲区写 map 结果

最低0.47元/天解锁文章

装B五分钟，挨打两小时

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
二 MapReduce 各阶段流程分析

系统资源，尤其是集群内部网络资源使用情况。 MR 可以运行在共享集群上处理 TB 级甚至 PB 级的数据。同时，改作业与共享集群的机器上数以百计的任务存在竞争关系。MapReduce 关注点： hadoop MapReduce 作业被分成一系列运行在分布式集群中的 map 任务和 reduce任务。因此负载是遍布集群中的各个节点的。 map 任务主要负责数据的载入、解析、转换、和过...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。