Hadoop之MR处理数据基本流程

飞鸟与鹿

于 2020-08-18 21:39:51 发布

阅读量773

点赞数

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30612351/article/details/108087540

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在启动程序中，FileInputFormat设置数据的输入路径，程序处理的是该路径中的所有文件，

1、如何处理

（1）、该路径中有几个文件就有几个map任务。map任务的个数是根据文件大小和个数来确定的。

（2）、在进行map任务之前，文件中的数据被一行一行的读，形成了K1：一行的起始位置，V1：行内容，这就是map任务被输入的K1，V1。

（3）、行内容V1被一行一行的切割，切割的时候要将这行数据转化成String类型才能进行切割操作，切割后形成的是数组，对数组进行分类，又形成一对一对的K2，V2，将这些K2、V2写入(context.write)一个缓存(内存），这对K2、V2就是reduce任务被输入的KV。

（4）、K2、V2在缓存中又经历了怎样的操作？

a.会根据K2进行分区，有几个reduce任务就分几个区，目的就是分任务，保证相同的k能够分在一个reduce任务中，这样才能保证聚合能够成功。

b.区内排序（默认按照k排序），这样相同的K能够挨在一起。这个结果被写入本地磁盘。

每个文件都会执行上面的步骤。

（5)、假设分了两个区，即有两个reduce任务。0号reduce任务会从磁盘中下载它所需要的文件，即0号分区文件（几个文件就有几个0号分区文件），

a. 假设有三个0号分区文件，reduce任务会将这个三个文件下载后按照k值进行合并排序（相同的K能够挨在一起）;

b. 之后进行区内分组，将分组的结果放入迭代器中进行累加。

c .最后将这个k和迭代器中累加的结果写入缓冲区，输出到指定路径。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hadoop之MR处理数据基本流程

在启动程序中，FileInputFormat设置数据的输入路径，程序处理的是该路径中的所有文件，1、如何处理（1）、该路径中有几个文件就有几个map任务。（2）、在进行map任务之前，文件中的数据被一行一行的读，形成了K1：一行的起始位置，V1：行内容，这就是map任务被输入的K1，V1。（3）、行内容V1被一行一行的切割，切割的时候要将这行数据转化成String类型才能进行切割操作，切割后形成的是数组，对数组进行分类，又形成一对一对的K2，V2，将这些K2、V2写入(context.wri
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。