MapReduce并行计算构架流程

MapReduce是一种针对大数据并行处理的计算模型,通过分治法原理将复杂问题拆分成Map和Reduce阶段。Map阶段将数据转化为key-value对进行分析,Reduce阶段则汇总Map的分析结果。Job/Driver负责协调Map和Reduce任务。MapReduce运行流程包括Split、Map、Shuffle、Reduce等步骤,涉及数据切片、溢写、合并、分区、排序和聚合等操作,以实现高效的数据处理。
摘要由CSDN通过智能技术生成

   

MapReduce 概述

  1. MapReduce 是面向大数据并行处理的计算模型、框架和平台。
  2. MapReduce 是一种编程模型
  3. 为解决大数据并行处理问题提供模板
  4. MapReduce 是一个编程框架
  5. 降低编写大数据并行处理程序的难度
  6. MapReduce 是一个高性能的并行计算平台
  7. 为大数据并行处理程序提供运行环境

MapReduce 原理

  1. 分治法:
  2. 把规模较大的复杂问题拆分为若干规模较小子问题
  3. 并逐个解决子问题
  4. 最后再将各个子问题的解决结果合并,得到原始问题的结果

MapReduce 角色

  1. Map:拆分后的小任务
  2. 统计每页中单词出现的次数
  3. 文件数据以 key-value 的形式输入 Map 程序进行分析
  4. Map 程序分析的结果也以 key-value 的形式输出
  5. Reduce:汇总每个 Map 的分析结果
  6. 汇总每页中单词出现的次数
  7. 数据以 key-value 的形式输入 Reduce 程序进行汇总
  8. Reduce 程序汇总的结果也以 key-value 的形式输出
  9. Job/Driver:组装 Map 和 Reduce
  10. 管理和指挥另外两种员工

 

WordCount 执行流程

        Map 阶段:

  1.  文件数据被拆分后交给不同的 map 程序进行分析
  2.  数据以行为单位转换为 kv 格式交给 map 程序进行分析
  3.  key 是行首字母的索引
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

琳小小小

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值