- 博客(4)
- 资源 (2)
- 收藏
- 关注
转载 Hadoop MapReduce 性能调优:减小数据倾斜的性能损失
6.4.4 减小数据倾斜的性能损失 数据倾斜是数据中的常见情况。数据中不可避免地会出现离群值(outlier),并导致数据倾斜。这些离群值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类: 数据频率倾斜——某一个区域的数据量要远远大于其他区域。数据大小倾斜——部分记录的大小远远大于平均值。 在map端和reduce端都有可能发生数据倾斜。在map端的数据倾斜会让多样
2014-06-05 20:08:57 1586
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人