三个测试文件:
1 2 3 .txt
hello tom1 ---tom30
最终生成分区文件:
hello分布到part-r-00001上
采用随机分区
结果:hello随机分布
2阶mapreduce
结果:
解决了大数据量的数据倾斜
总结:两次mapreduce计算,第一次减少统计的数据量,目的是均匀分布,第二次进行总体统计。
三个测试文件:
1 2 3 .txt
hello tom1 ---tom30
最终生成分区文件:
hello分布到part-r-00001上
采用随机分区
结果:hello随机分布
2阶mapreduce
结果:
解决了大数据量的数据倾斜
总结:两次mapreduce计算,第一次减少统计的数据量,目的是均匀分布,第二次进行总体统计。