Hadoop mapreduce原理

最新推荐文章于 2024-08-16 13:24:37 发布

fxruestc

最新推荐文章于 2024-08-16 13:24:37 发布

阅读量240

点赞数

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/u014398519/article/details/79507292

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.map任务处理:
1.1 读取hdfs文件为内容,把内容中的每一行解析成一个个的键(key)值(value)对.文件总是有行的,键是字节的偏移量,值是每一行的内容,每一个键值对调用一次map函数.map函数处理输入的每一行.
1.2 自定义map函数,写自己的逻辑,对输入的key,value(把每一行解析出的key,value)处理,转换成新的key,value输出.
1.3 对输出的key,value进行分区.根据业务要求,把map输出的数据分成多个区..
1.4 对不同分区上的数据,按照key进行排序,分组.相同key的value放到一个集合中.
1.5 把分组后的数据进行归约.
2.reduce任务处理:

shuffle:把我们map中的数据分发到reduce中去的一个过程,分组还是在map这边的.
2.1 每个reduce会接收各个map中相同分区中的数据.对多个map任务的输出,按照不同的分区通过网络copy到不同reduce节点.shuffle实际指的就是这个过程.
2.2 对多个map任务的输出进行合并,排序.写reduce函数自己的逻辑,对输入的key,value处理,转换成新的key,value输出.
2.3 把reduce的输出保存到新的文件中.

TaskTracker节点上如果跑的是map任务,我们的map任务执行完之后,就会告诉我们的JobTracker执行完毕,把这个数据让我们的reduce来读取.读取的时机是一个map执行完毕之后让reduce去处理获取数据.
JobTracker只做管理和通知,数据只在map和reduce之间流动,准确的说,只会在TaskTracker之间流动.
　　　　排序是框架内置的.默认就有.分组不是减少网络开销,分组不是合并,只是把相同的key的value放到一起,并不会减少数据.
　　　　分组是给了同一个map中相同key的value见面的机会.作用是为了在reduce中进行处理.
map函数仅能处理一行,两行中出现的这个单词是无法在一个map中处理的.map不能处理位于多行中的相同的单词.分组是为了两行中的相同的key的value合并到一起.
　　　　在自定义MyMapper类内部定义HashMap处理的是一个block,在map方法内部定义处理的是一行.

　　　　在hadoop全局中不会有线程问题,因为hadoop起的是进程,不会有并发问题存在.

fxruestc

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop mapreduce原理

1.map任务处理:1.1 读取hdfs文件为内容,把内容中的每一行解析成一个个的键(key)值(value)对.文件总是有行的,键是字节的偏移量,值是每一行的内容,每一个键值对调用一次map函数.map函数处理输入的每一行.1.2 自定义map函数,写自己的逻辑,对输入的key,value(把每一行解析出的key,value)处理,转换成新的key,value输出.1.3 对输出的key,val...
复制链接

扫一扫