mapreduce的编程模型

最新推荐文章于 2024-08-16 11:59:21 发布

花言简

最新推荐文章于 2024-08-16 11:59:21 发布

阅读量3.7k

点赞数 3

分类专栏： hadoop学习过程

本文链接：https://blog.csdn.net/m0_38014125/article/details/80502801

版权

hadoop学习过程专栏收录该内容

9 篇文章 0 订阅

订阅专栏

mapreduce编程模型核心为将数据运算流程分为两个阶段：

拆分，读取原始数据，形成key-value数据（map方法）；

聚合，将相同key的数据聚合到一组（reduce方法）。

maptask:

读数据：读取源数据，maptask获取分片数据信息（类型有：TextInputFormat,文本文件；SequenceFileInputFormat,序列化文件；DBInputFomrat,数据库文件），形成key-value数据；

逻辑处理：通过循环调用Mapper类的map方法读取每行数据进行处理；

分区：通过Partitioner类的getPartition()方法对数据进行分区（默认执行HashPartitioner,分发规则：(key的hashcode值&Integer.MAX_VALUE)%numReducetTasks），分区规则注明分区号相同的数据会被分发给同一reducetask（只要按照规则就会返回相同的分区号）；

排序：将数据通过key的compareTo()方法比较排序(默认是普通的字典排序)；

reducetask:

读数据：reducetask会通过http方式下载各自处理的“区”的数据到本地磁盘，并合并排序，执行默认的GroupingComparator确定数据key相同的为同一组(我们在自定义的时候写一个类A继承WritableComparator，根据需求重写compare()方法，因为要从磁盘上读取数据，那么需要反序列化，需要在A的构造函数中告知WritableComparator反序列化的类型，否则会出错)；；

处理数据：reducetask把相同key的数据值聚合到Reducer类，按照reduce()方法处理逻辑，输出数据（输出类型：TextOutputFomat，文件类型；SequenceFileOutputFomrat,序列化文件；DBOutputFomrat,数据库数据文件）;