【大数据】离线批处理计算MapReduce | 复习笔记

最新推荐文章于 2022-10-25 18:17:54 发布

柔水终成雕刀╮(￣▽￣"")╭

最新推荐文章于 2022-10-25 18:17:54 发布

阅读量797

点赞数

分类专栏：大数据复习笔记文章标签：大数据 mapreduce

本文链接：https://blog.csdn.net/m0_46201214/article/details/111027042

版权

35 篇文章 2 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

在这里插入图片描述

分布式计算模型

批处理计算：（大容量静态数据集）

偷老师的图：
在这里插入图片描述

主要点在于分开mapper和reducer，然后确定每个<key,value>键值对的意义

求和模式(Summarization Pattern)
单词统计：
1. map阶段：输入<key,value>是<网页ID,网页内容>，输出<key,value>是<单词,出现次数>
2. reduce阶段：累加相同key值的，输出<单词,出现次数>
3. 补充：map和reduce间是shuffle阶段，在shuffle阶段，可以先对每一个map做combiner（合并相同的key对应的value，局部reducer），然后做partitioner，通过hash等方式分配中间结果数据给reducer，实现负载均衡
过滤模式(Filtering Pattern)
1. 简单过滤：Map-Only
2. TOP K：Mapper首先统计出数据块内所有记录中某个字段满足Top K条件的记录子集，得到局部Top K记录。然后通过Reducer对这些局部Top K记录进一步筛选，获得最终的全局最大的K条记录。
数据组织模式(Data Organization Pattern)
1. 数据分片
2. 全局排序：“排序是MapReduce的天然特性”（a每个map输出结果有序；b每个reduce输入有序）但当多个reducer时，需要通过Partition策略，保证不同Reducer处理一个范围区间的记录。

文本分析、页面点击统计、专利引用统计

关注

专栏目录