任务在开始之前即完全确定。
map个数的影响因子:
1)数据总大小
2) blocksize大小
3) 文件个数
4)文件格式(txt,orc则可以分块,若为gzip/snappy则不能利用分布式计算的优势)。
reduce个数的影响因子:
1) 自定义设置,但是不是一定有效。如遇到order by等特殊关键字,则受该类关键字制约。
2) 推测估计公式计算:
input_map_data_size/hive.exec.reducers.bytes.per.reducer
hive.exec.reducers.bytes.per.reducer 该参数默认是64M=67108864