- 博客(3)
- 资源 (6)
- 问答 (1)
- 收藏
- 关注
原创 hive中order by,sort by,distribute by,Cluster By的区别
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b
2013-11-20 15:17:11 1438 1
转载 mapreduce Shuffle过程详解
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里
2013-11-14 13:47:56 18173
转载 map/reduce二次排序
mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程) public static class Map extends Mapper public static class Reduce extends Reducer 1 首先说一下工作原理:在map阶段,使用jo
2013-11-06 18:01:24 1255
hdfs-over-ftp的重构
2014-05-08
hadoop-2.0.0-cdh4.1.2-eclipse-plugin
2014-04-18
hive学习中碰到的错误
2013-10-10
TA创建的收藏夹 TA关注的收藏夹
TA关注的人