2014年10月_Cumu_

11月 10月 08月 06月

原创 Hadoop MapReduce做大数据排序

1. 我们知道mapreduce天生适合作排序，由于他有一个shuffer的过程，当数据量很少的时候我们可以把reduce的num设置成1来进行排序，但是如果数据量很大，在一个reduce上处理不过来或者处理时间太长，那么我们就需要重新考虑这个排序（需要设置多个reduce） 2. 假设我们现在的数据是这样的，每个数字占一行，如： 6 1 56 43 65 15 54 93 47 56 2

2014-10-31 17:48:57 4382

原创 MapReduce实现hive join操作

1. hive中join就是一条select语句，其个性

2014-10-30 16:08:02 4335

转载 Hive 数据倾斜总结

本文转载自：http://blog.csdn.net/lovingprince/article/details/7264549 几个比较特殊的点都提到了，大家可以作为参考。在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得

2014-10-21 11:35:52 1844 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人