- 博客(3)
- 收藏
- 关注
原创 Hadoop MapReduce做大数据排序
1. 我们知道mapreduce天生适合作排序,由于他有一个shuffer的过程,当数据量很少的时候我们可以把reduce的num设置成1来进行排序,但是如果数据量很大,在一个reduce上处理不过来或者处理时间太长,那么我们就需要重新考虑这个排序(需要设置多个reduce) 2. 假设我们现在的数据是这样的,每个数字占一行,如: 6 1 56 43 65 15 54 93 47 56 2
2014-10-31 17:48:57 4382
转载 Hive 数据倾斜总结
本文转载自:http://blog.csdn.net/lovingprince/article/details/7264549 几个比较特殊的点都提到了,大家可以作为参考。 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得
2014-10-21 11:35:52 1844 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人