Mapreduce过程的理解

最新推荐文章于 2019-06-30 17:12:47 发布

一只小白_931121

最新推荐文章于 2019-06-30 17:12:47 发布

阅读量204

点赞数

文章标签： Hadoop Mapreduce

本文链接：https://blog.csdn.net/qq_20511439/article/details/82961883

版权

本文章仅仅围绕上面的图解进行讲解，本文对网上的一些讲解进行一次汇总。希望可以帮到刚学习Hadoop的mapreduce的人。

对于一个mapreduce任务，可以有多个map和reduce。对于每个mapper，都会有对应的输入，如图中所示的input split（切片）。对于每个切片，要弄清楚这概念首先要明白hadoop的HDFS的原理，这里不过多个讲解，后面我会进行补充。从浅层的方面上，我们可以简单的理解成，我们要处理的文本数据经过inputFormat进行处理，默认情况下是 TextInputFormat,可以在配置启动中修改这一值，改变输入时的格式信息。

对于每个切片数据，都会经过map程序，对于这一脚本可以用多种语言进行编写，主要是用java或者python，不过喜欢C/C++的朋友，可以用自己喜欢的语言，至于如何使用具体请用检索系统进行搜索。我主要是用Python进行编写（公司主要是用python进行编写）。对于mapper的输出主要的格式要和reducer的输入的格式进行匹配。对于每个mapper处理完成后，都将数据信息写到缓存中，缓存满了，就会将数据写到硬盘里。对于这一缓存的空间大小可以进行设置，其中占满了多少回启动写到硬盘中，都有一个比例的设置。在中间这一shuffle过程中会经过排序等规则，排序默认情况下会使用key的hash映射进行排序，当然这个过程可以进行重写。每个combine可以的处理可以简单的理解为一个小型的reducer，这一块我不常用。主要是以前学习时上网搜索的。可以理解为达到局部数据的一个结果。就像归并排序一样，两个局部有序的部分进行归并时，时间复杂度O(m+n)，算是一个线性的了。同样的道理，两个局部有序的部分，partition进行分配到reducer时，每个reducer处理的分段时局部有序，可以降低处理的时间。具体的情况具体分析。在reduce阶段，对于所分配而来的数据首先会进行merge。所得到的数据输入到reducer中进行处理。

reducer的处理结果也会有对应的缓存输出。对于处理的结果，最后可以通过outputFormat进行制定其中的输出格式。对于输出的位置一般是HDFS上。注意在HDFS上的文件是不能被修改的，所以当已有一个文件时，则启动程序是会失败的。

学习的不深入，若其中有纰漏的地方，望指正！

一只小白_931121

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce过程的理解

本文章仅仅围绕上面的图解进行讲解，本文对网上的一些讲解进行一次汇总。希望可以帮到刚学习Hadoop的mapreduce的人。对于一个mapreduce任务，可以有多个map和reduce。对于每个mapper，都会有对应的输入，如图中所示的input split（切片）。对于每个切片，要弄清楚这概念首先要明白hadoop的HDFS的原理，这里不过多个讲解，后面我会进行补充。从浅层的方面上，...
复制链接

扫一扫