mapreduce数据处理完整流程

最新推荐文章于 2022-11-25 22:42:23 发布

月缘天星

最新推荐文章于 2022-11-25 22:42:23 发布

阅读量3.6k

点赞数 1

分类专栏：数据挖掘

本文链接：https://blog.csdn.net/u012386599/article/details/56012872

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Mapper 处理的是<key,value>形式的数据，并不能直接处理文件流。

分片，格式化数据源（input Format）

InputFormat有两个任务：对源文件分片，确定Mapper数量；对分片进行格式化，处理成<key,value>形式的数据给Mapper

1.分片操作（split）

将源文件分片成InputSplit，每个InputSplit由一个Mapper处理。（note：对文件进行分片不是把文件切分开来形成新的文件分片副本）

2.数据格式化（format）

将划分好的InputSplit格式化为<key,value>形式，其中key是偏移量，value为每一行的内容。在Map任务执行过程中，会不停地执行上述操作，每生成一个<key,value>就会调用一次Map函数，也就是说每解析一个数据元，便交给Mapper处理一次。

Map过程

Mapper接受<key,value>形式的数据，并处理成<key,value>形式的数据。一般以空白符作为分隔符。

shuffer过程

从Mapper产生的直接输出，到最终的reduce的直接输入。

Mapper端的shuffer（sort，combine，spill，mergesort，partition）

每一个Mapper任务在内存都有一个输出缓存（默认是100M），并且有一个写入阈值（默认是0.8），当写入缓存的数据达到这一阈值，Mapper会继续向剩余的缓存写入数据，但在后台开启一个新线程，对前面80%的缓存数据进行排序，写入本地磁盘，这一操作称为spill操作，写入磁盘的文件称作溢写文件，Mapper向缓存写入数据是循环写入的，即当写到缓存的尾部时，继续从缓存头开始。

Mapper任务完成后，有多个spill文件，将所有的spill文件合并成一个文件，将合并后的文件进行partition分区，保证后一个分区的数据在Key上大于前一个分区，每一个分区分配给一个reducer。所以最后除了得到一个大的数据文件之外，还得到一个index索引文件，其中存储了分分区的数据位置偏移量。