大数据hadoop之MapReduce数据处理过程

最新推荐文章于 2023-04-20 21:27:33 发布

少年惨绿

最新推荐文章于 2023-04-20 21:27:33 发布

阅读量2.8k

点赞数 1

文章标签： hadoop MapReduce

本文链接：https://blog.csdn.net/dengzhigang1998/article/details/107136766

版权

简介MapReduce是一种编程模型，在真正应用于工作上时，它分为MapTask阶段和ReduceTask阶段，用于大规模数据集（大于1TB）的并行运算。概念"Map（射）“和"Reduce（约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的

摘要由CSDN通过智能技术生成

流程图与过程详解

MapTask阶段
在这里插入图片描述

既然需要进行数据处理，自然需要我们提供数据，那么首先我们需要提供待处理的文件，可以是一个也可以是多个
在我们(客户端)提交(submit())数据前，客户端会获取数据的信息，根据参数配置，形成任务分配的规划，即计划切片数(默认一个切片大小128M，hadoop老版本是64M)
注：虽然切片的大小是按照128M为一个分界线，但是如果有两个文件需要被切片，那么不论第二的文件多小，都独占一个切片，不需要跟在第一个文件最后一个切片的末尾,如图
然后需要提交切片信息，包含job.split(切片)、wc.jar(本地模式无需提交，集群下需要)、job.xml(配置信息),这些信息
接着Yarn会调用RM(ResourceManager)会创建MrAppmaster(job资源的老大)、NodeManager。其中MrAppmaster会根据split(分片)决定启动MapTask的数量。
开始读取数据，调用InputFormat这个接口去读取，其中默认情况下是采用InputFormat下的TextInputFormat这个具体实现类进行的，特点是每次读取文本数据，是一

最低0.47元/天解锁文章

少年惨绿

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
大数据hadoop之MapReduce数据处理过程

简介MapReduce是一种编程模型，在真正应用于工作上时，它分为MapTask阶段和ReduceTask阶段，用于大规模数据集（大于1TB）的并行运算。概念"Map（射）“和"Reduce（约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的
复制链接

扫一扫