MapTask运行过程与原理详解

op1sreal

于 2020-09-25 15:08:07 发布

阅读量986

点赞数

分类专栏： hadoop 文章标签： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iCloser/article/details/108796580

版权

本文详细阐述了MapTask的运行过程，包括输入数据的split、RecordReader的读取、Mapper处理、分区、数据收集、内存缓冲、溢写到磁盘、排序与Combiner的使用，以及最后的文件合并。Map阶段的关键步骤和内部机制得以清晰展现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

整个Map阶段流程大体如上图所示。

简单概述:

inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给 map(用户自己实现的)进行处理，数据被map处理结束之后交给OutputCollector收集器，对其结果key进行分区(默认使用hash分区)，然后写入buffer，每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘，当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并，生成最终的正式输出文件，然后等待reduce task来拉数据

详细步骤

读取数据组件 InputFormat (默认 TextInputFormat) 会通过 getSplits 方法对输入目录中文件进行逻辑切片规划得到 splits, 有多少个 split 就对应启动多少个MapTask . split 与 block 的对应关系默认是一对一
将输入文件切分为 splits 之后, 由 RecordReader 对象 (默认是LineRecordReader) 进行读取, 以 \n 作为分隔符, 读取一行数据, 返回 <key，value> . Key 表示每行首字符偏移值, Value 表示这一行文本内容
读取 split 返回 <key,value> , 进入用户自己继承的 Mapper 类中，执行用户重写的 map 函数, RecordReader 读取一行这里调用一次
Mapper逻辑结束之后,将Mapper的每条结果通过con

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。