MapReduce之mapTask阶段详解

最新推荐文章于 2024-04-17 19:02:39 发布

浮躁-lh

最新推荐文章于 2024-04-17 19:02:39 发布

阅读量519

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_42214376/article/details/104092659

版权

Map阶段流程包括：InputFormat规划splits启动MapTask，RecordReader按行读取数据，Mapper处理并收集结果，分区处理，数据写入内存缓冲区。当缓冲区满时，数据溢写至磁盘，经过排序和可选的Combiner优化，最后合并成正式输出文件，等待Reduce Task处理。

摘要由CSDN通过智能技术生成

整个Map阶段流程大体如上图所示。
简单概述：inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给 map（用户自己实现的）进行处理，数据被map处理结束之后交给OutputCollector收集器，对其结果key进行分区（默认使用hash分区），然后写入buffer，每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘，当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并，生成最终的正式输出文件，然后等待reduce task来拉数据
详细步骤
1. 读取数据组件 InputFormat (默认 TextInputFormat) 会通过 getSplits 方法对输入目录中文件进行逻辑切片规划得到 splits, 有多少个 split 就对应启动多少个 MapTask . split 与 block 的对应关系默认是一对一

2. 将输入文件切分为 splits 之后, 由 RecordReader 对象 (默认是LineRecordReader) 进行读取, 以 \n 作为分隔符, 读取一行数据, 返回 <key，value> . Key 表示每行首字符偏移值, Value 表示这一行文本内容
3. 读取 split 返回 <key,value> , 进入用户自己继承的 Mapper 类中，执行用户重写的 map 函数, RecordReader 读取一行这里调用一次