MapReduce过程全程

最新推荐文章于 2020-12-14 10:52:53 发布

小埋璐璐

最新推荐文章于 2020-12-14 10:52:53 发布

阅读量137

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/malu_/article/details/103074397

版权

大数据专栏收录该内容

16 篇文章 0 订阅

订阅专栏

第1步：InputFormat
InputFormat 到hdfs上读取数据
将数据传给Split
第2步：Split
//设置读取数据的路径 TextInputFormat.addInputPath(job,new Path(“C:\bbb.txt”)); //3、设置Map job.setMapperClass(WordCountMap.class); //设置map输出的类型 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(LongWritable.class); //4、设置reduce代码 job.setReducerClass(WordCountReduce.class); //设置reduce输出的类型 job.setOutputKeyClass(Text.class); job.setOutputValueClass(LongWritable.class); //5、设置读输出数据的class job.setOutputFormatClass(TextOutputFormat.class); //设置输出数据的路径 TextOutputFormat.setOutputPath(job,new Path(“C:\ccc.txt”)); //6、等待代码执行（返回状态码） return job.waitForCompletion(true)?0:1;
Split将数据进行逻辑切分
将数据传给RR
第3步：RR
RR:将传入的数据转换成一行一行的数据，输出行首字母偏移量和偏移量对应的数据
将数据传给MAP
第4步：MAP
MAP:根据业务需求实现自定义代码
将数据传给Shuffle的partition
第5步：partition
partition:按照一定的分区规则，将key value的list进行分区。
将数据传给Shuffle的Sort
第6步：Sort
Sort:对分区内的数据进行排序
将数据传给Shuffle的combiner
第7步：combiner
combiner:对数据进行局部聚合。
将数据传给Shuffle的Group
第8步：Group（分组）
Group:将相同key的key提取出来作为唯一的key,
将相同key对应的value获取出来作为value的list
将数据传给Reduce
第9步：Reduce
Reduce：根据业务需求进行最终的合并汇总。
将数据传给outputFormat
第10步：outputFormat
outputFormat:将数据写入HDFS