===========================================================================
MapReduce是一个分布式计算框架,处理的是海量数据的计算。那么并行运算必不可免,但是到底并行多少个Map任务来计算呢?每个Map任务计算哪些数据呢?这些我们数据我们不能够凭空估计,只能根据实际数据的存储情况来动态分配,而我们要介绍的切片就是要解决这个问题,
切片的规则我们需要通过阅读源代码来了解。首先我们来看下hadoop中默认的两个参数配置
1.默认参数
官网地址:http://hadoop.apache.org/docs/stable/hadoop-mapreduce-c