MapReduce 运行流程及WordCount运行流程详解

本文详细介绍了MapReduce的运行流程,包括输入数据切片、Map任务调度、Reduce任务执行等步骤。同时,深入讲解了WordCount的具体运行过程,从输入数据解析到Map阶段、数据分组、排序、Combiner、Reduce处理,直至最终结果保存在HDFS。MapReduce的核心在于将数据处理划分为Map和Reduce两个阶段,实现大规模数据的并行计算。
摘要由CSDN通过智能技术生成

1、MapReduce 运行流程

由上图可以看到MapReduce 执行下来主要包含这样几个步骤:

1) 首先对输入数据源进行切片
2) master 调度worker 执行map 任务
3) worker 读取输入源片段
4) worker 执行map 任务,将任务输出保存在本地
5) master 调度worker 执行reduce 任务,reduce worker 读取map 任务的输出文件
6) 执行reduce 任务,将任务输出保存到HDFS

2、WordCount运行流程详解

给定任意的HDFS 的输入目录,其内部数据为“f a c d e……”等用空格字符分隔的字符串,通过使用MapReduce 计算框架来统计以空格分隔的每个单词出现的频率,输出结果如<a,10>,<b,20>,<c,2>形式的结果到HDFS 目录中。

MapReduce 将作业的整个运行过程分为两个阶段:Map 阶段Reduce 阶段。

MapReduce过程:
1)输入数据格式解析

首先InputFormat类从hdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值