- 博客(2)
- 收藏
- 关注
转载 Hadoop中的数据倾斜整理
最近几次被问到关于数据倾斜的问题,这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条
2017-08-07 11:03:45 712
转载 Hadoop相关知识整理
主要参考以下四篇博客内容:http://blessht.iteye.com/blog/2095675http://blog.csdn.net/lifuxiangcaohui/article/details/23337905http://www.cnblogs.com/voidy/p/4162395.htmlhttp://blog.csdn.net/yclzh0522/a
2017-08-02 21:39:14 642
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人