MapReduce
1.MR的计算流程
计算1T数据中每个单词出现的次数–>wordcount
1.1原始数据File
- 1T数据被切分成存放在HDFS上,每一块有128M大小
1.2 数据块Block
-
hdfs上数据存储的一个单元,同一个文件中的大小都是相同的
-
因为数据存储到HDFS上不可变,所以有可能快的数量和集群的计算能力不匹配
-
我们需要动态调整本次参与计算节点数量的一个单位
-
我们可以动态改变这个单位 参与计算的节点
1.3 切片Split
-
切片是一个逻辑概念
-
在不改变现在数据存储的情况下,可以控制参与计算的节点数目
-
通过切片大小可以达到控制计算节点的目的
- 有多少个切片就会执行多少个MAp任务
-
一般切边大小为Block的整数倍 2分之一
- 防止多余创建和很多的数据链接
-
如果Split>Block 计算节点少了
-
如果Split<Block 计算节点多了
-
默认情况下 Split切片的大小等于Block的大小 默认是128M
-
一个切片对应要给MapTask