MapReduce核心思想及其步骤原理

最新推荐文章于 2022-10-07 15:05:15 发布

枳言真菌

最新推荐文章于 2022-10-07 15:05:15 发布

阅读量1.5k

点赞数 2

文章标签： Map Reduce MapReduce

本文链接：https://blog.csdn.net/qq_45739020/article/details/103073999

版权

1.1MapReduce核心思想

分而治之，先分后和：将一个大的、复杂的工作或任务，拆分成多个小任务，最终合并。

MapReduce是由Map和Redecu组成

Map：将数据进行拆分
Reduce：对数据进行汇总
在这里插入图片描述

1.2偏移量

行首字母或字符移动到当前文件的最前面需要移动的字符个数

在这里插入图片描述

1.3Hadoop与Java数据类型对比

Java类型：int、long、double, float、 boolean、 string
Hadoop类型：IntWritable、LongWritable、DoubleWritable、FloatWritable、BooleanWritable、[Text]、NullWritable

1.4MapReduce输出理解

Map的输出是key value 的list
Reduce的输出是key value的list

1.5MapReduce计算任务的步骤(要深刻理解)

第1步：InputFormat
InputFormat 到hdfs上读取数据
将数据传给Split
第2步：Split
//设置读取数据的路径 TextInputFormat.addInputPath(job,new Path(“C:\bbb.txt”)); //3、设置Map job.setMapperClass(WordCountMap.class); //设置map输出的类型 job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(LongWritable.class); //4、设置reduce代码 job.setReducerClass(WordCountReduce.class); //设置reduce输出的类型 job.setOutputKeyClass(Text.class); job.setOutputValueClass(LongWritable.class); //5、设置读输出数据的class job.setOutputFormatClass(TextOutputFormat.class); //设置输出数据的路径 TextOutputFormat.setOutputPath(job,new Path(“C:\ccc.txt”)); //6、等待代码执行（返回状态码） return job.waitForCompletion(true)?0:1;
Split将数据进行逻辑切分，
将数据传给RR
第3步：RR
RR:将传入的数据转换成一行一行的数据，输出行首字母偏移量和偏移量对应的数据
将数据传给MAP
第4步：MAP
MAP:根据业务需求实现自定义代码
将数据传给Shuffle的partition
第5步：partition
partition:按照一定的分区规则，将key value的list进行分区。
将数据传给Shuffle的Sort
第6步：Sort
Sort:对分区内的数据进行排序
将数据传给Shuffle的combiner
第7步：combiner
combiner:对数据进行局部聚合。
将数据传给Shuffle的Group
第8步：Group
Group:将相同key的key提取出来作为唯一的key,
将相同key对应的value获取出来作为value的list
将数据传给Reduce
第9步：Reduce
Reduce：根据业务需求进行最终的合并汇总。
将数据传给outputFormat
第10步：outputFormat
outputFormat:将数据写入HDFS

步骤总体流程图
在这里插入图片描述
Map将拆分的数据传给Shuffle(混洗)，而Shuffle的底层原理又分为四步，分组完成后的数据在传入到Reduce

在这里插入图片描述

Shuffle阶段的Partition分区算法原理（很重要）

算法：对key进行哈希，获取到一个哈希值，用哈希值与reducetask的数量取余。余几，这个数据就放在余数编号的partition中。
Map的数量不能人为设置，reduce的数量可以人为设置。reduce数量越多，计算速度越快。

job.setNumReduceTasks(3);

打包代码到集群运行需添加驱动的类

job.setJarByClass(WordCountDriver.class);

combinner的添加 对数据进行局部聚合。

job.setCombinerClass(WordCountReduce.class);

combiner 的意义就是对每一个 maptask 的输出进行局部汇总，以减小网络传输量
未使用combiner的网络开销

1.6 Split的逻辑切分（重点）

获取到读取到的数据，对数据进行逻辑切分，切分的大小是128M.
这里的128 与HDFS数据块的128没有任何关系
HDFS 128 是存储层面的数据切分
split128 是计算层面的128，只不过数据恰好相等。
两个128相同的原因是，一个集成程序能够正好计算一个数据块。

在这里插入图片描述

枳言真菌

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
MapReduce核心思想及其步骤原理

1.1MapReduce核心思想分而治之，先分后和：将一个大的、复杂的工作或任务，拆分成多个小任务，最终合并。MapReduce是由Map和Redecu组成Map：将数据进行拆分Reduce：对数据进行汇总1.2偏移量行首字母或字符移动到当前文件的最前面需要移动的字符个数1.3Hadoop与Java数据类型对比Java类型：int、long、double, float、 boo...
复制链接

扫一扫