mapreduce运行机制

最新推荐文章于 2024-02-14 16:22:35 发布

等你下课_

最新推荐文章于 2024-02-14 16:22:35 发布

阅读量165

点赞数

分类专栏： mapreduce

本文链接：https://blog.csdn.net/weixin_39950222/article/details/100598078

版权

mapreduce 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

https://blog.csdn.net/lb812913059/article/details/79898768

Map阶段由一定数量的 Map Task组成
1. 输入数据格式解析： InputFormat
2. 输入数据处理： Mapper
3. 本地合并： Combiner（local reduce）
4. 数据分组： Partitioner

Reduce阶段由一定数量的 Reduce Task组成
1. 数据远程拷贝
2. 数据按照key排序
3. 数据处理： Reducer
4. 数据输出格式： OutputFormat

每个输入分片（input split）针对一个map任务，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组，输入分片（input split）往往和hdfs的block（块）关系很密切，存储位置供MapReduce使用以便将map任务尽量放在分片数据附近，而长度用来排序分片，以便优化处理最大的分片，从而最小化作业运行时间。

map任务的个数

Mapper数量由什么决定？？
（1）输入文件数目（2）输入文件的大小（3）配置参数这三个因素决定的。
输入的目录中文件的数量决定多少个map会被运行起来，应用针对每一个分片运行一个map，一般而言，对于每一个输入的文件会有一个map split。如果输入文件太大，超过了hdfs块的大小（128M）那么对于同一个输入文件我们会有多余2个的map运行起来。

    下面是FileInputFormat class 的getSplits()的伪代码：
      num_splits = 0
      for each input file f:
         remaining = f.length
         while remaining / split_size > split_slope:
            num_splits += 1
            remaining -= split_size
      where:
        split_slope = 1.1 分割斜率
        split_size =~ dfs.blocksize 分割大小约等于hdfs块大小

会有一个比例进行运算来进行切片，为了减少资源的浪费
例如一个文件大小为260M，在进行MapReduce运算时，会首先使用260M/128M，得出的结果和1.1进行比较
大于则切分出一个128M作为一个分片，剩余132M，再次除以128，得到结果为1.03，小于1.1
则将132作为一个切片，即最终260M被切分为两个切片进行处理，而非3个切片。

Mapper数据处理之后输出之前，输出key会经过Partitioner分组或者分桶选择不同的reduce，默认的情况下Partitioner会对map输出的key进行hash取模。

数据运程拷贝
Reduce Task要远程拷贝每个map处理的结果，从每个map中读取一部分结果，每个Reduce Task拷贝哪些数据，是由上面Partitioner决定的。
数据按照key排序
Reduce Task读取完数据后，要按照key进行排序，相同的key被分到一组，交给同一个Reduce Task处理
Reducer数据处理
以WordCount为例，相同的单词key分到一组，交个同一个Reducer处理，这样就实现了对每个单词的词频统计。
OutputFormat数据输出格式
Reducer统计的结果将按照OutputFormat格式输出（默认情况下的输出格式为TextOutputFormat）

等你下课_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mapreduce运行机制

https://blog.csdn.net/lb812913059/article/details/79898768Map阶段由一定数量的 Map Task组成1. 输入数据格式解析： InputFormat2. 输入数据处理： Mapper3. 本地合并： Combiner（local reduce）4. 数据分组： PartitionerReduce阶段由一定数量的 Reduc...
复制链接

扫一扫

专栏目录