大数据处理技术导论（4） | Datawhale组队学习46期

最新推荐文章于 2023-03-06 21:21:09 发布

mba1398

最新推荐文章于 2023-03-06 21:21:09 发布

阅读量121

点赞数

分类专栏：大数据学习之路 Datawhale 文章标签：学习 hadoop mapreduce

本文链接：https://blog.csdn.net/mba1398/article/details/128990129

版权

23 篇文章 0 订阅

订阅专栏

10 篇文章 1 订阅

订阅专栏

项目地址 https://github.com/datawhalechina/juicy-bigdata，感谢项目团队的付出。
本次主要学习 mapreduce 相关内容。

1. mapreduce 概述

mapreduce 是 google 提出的分布式并行编程框架。hadoop mapreduce （下文中的 mapreduce 指 hadoop reduce）是其开源实现。运行于 HDFS 系统之上，处理效率高、使用门槛低，一经提出便受到了广大程序员的喜爱。

mapreduce 设计理念遵循 让程序计算靠近数据 ，因为数据需要大量的网络开销，让数据靠近程序 的理念效率较低。
在这里插入图片描述

mapreduce 核心流程有 map、shuffle、reduce 3个阶段。
wordcount
shuffle

如上图所示：

map-1:
k1, v1 
k1, v2

map-2:
k1, v3 
k1, v4 
k2, v5
k2, v6 
----> 
map-1:
k1, v1+v2

map-2:
k1, v3+v4
k2, v5+v6

）形成大量的溢出文件，而后，将大量的溢出文件归并（按照 key 进行整体排序整合）为少量的大文件；

map-1:
k1, v1+v2

map-2:
k1, v3+v4 
k2, v5+v6

----> 
k1,[v1+v2,v3+v4]
k2,[v5+v6]

k1, v1+v2+v3+v4
k2, v5+v6

关注

专栏目录