MapReduce之mapTask阶段详解

Map阶段流程包括:InputFormat规划splits启动MapTask,RecordReader按行读取数据,Mapper处理并收集结果,分区处理,数据写入内存缓冲区。当缓冲区满时,数据溢写至磁盘,经过排序和可选的Combiner优化,最后合并成正式输出文件,等待Reduce Task处理。
摘要由CSDN通过智能技术生成

整个Map阶段流程大体如上图所示。
简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给 map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集 器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有 一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一 个临时文件的方式存放到磁盘,当整个map task结束后再对磁盘中这个map task产生的所 有临时文件做合并,生成最终的正式输出文件,然后等待reduce task来拉数据
详细步骤
   1. 读取数据组件 InputFormat (默认 TextInputFormat) 会通过 getSplits 方法对输入 目录中文件进行逻辑切片规划得到 splits, 有多少个 split 就对应启动多少个 MapTask . split 与 block 的对应关系默认是一对一

    2. 将输入文件切分为 splits 之后, 由 RecordReader 对象 (默认是LineRecordReader) 进行读取, 以 \n 作为分隔符, 读取一行数据, 返回 <key,value> . Key 表示每行首字符 偏移值, Value 表示这一行文本内容
    3. 读取 split 返回 <key,value> , 进入用户自己继承的 Mapper 类中,执行用户重写 的 map 函数, RecordReader 读取一行这里调用一次

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值