MapReduce概述
- 源自于Google 2004年的MapReduce论文
- Hadoop MapReduce是Google MapReduce的克隆版
- MapReduce的优点:海量数据离线处理 & 易开发 & 易运行
- MapReduce缺点:不能进行实时流式计算
MapReduce就是将一个作业在多个节点上运行
多个节点之间,如何通信,如何保障高可靠,如果我们自己来实现是很繁琐的
所以说这个框加为我们提供了底层很好的封装,在开发过程中根本不需要关注分布式底层的这些东西,只需要用它的API来实现就ok了
MapReduce编程模型
以WordCount词频统计为例
采用并行方式
splitting是把文件拆开
reducing是归并
MapReduce会把作业拆分成Map阶段和Reduce阶段MapReduce执行步骤
- 准备map处理的输入数据
- Mapper处理
- Shuffle
- Reduce处理
- 结果输出
MapReduce知识点(一)——MapReduce概述与编程模型
最新推荐文章于 2023-12-21 14:44:12 发布