http://blog.fens.me/hadoop-hive-roadmap/
http://blog.fens.me/hadoop-hive-10g/
http://shiyanjun.cn/archives/588.html
http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842821.html
group by 的实现
http://ju.outofmemory.cn/entry/785
若只有一个reduce 那么结果是按照key全排序的
若有若干个reduce 那么结果是部分排序
inner join 的实现
http://ju.outofmemory.cn/entry/786
inner join 内连接
left out join ,right out join ,full outer join 是外连接
内连接 和 外连接 都是叫做reduce端连接 通过给map的输出加标记 来实现的
半连接 left semi join http://www.kankanews.com/ICkengine/archives/95244.shtml
对待右表中重复key的处理方式差异:因为 left semi join 是 in(keySet) 的关系,遇到右表重复记录,左表会跳过,而 join on 则会一直遍历
mapjoin 提示 : map 端连接 问题是对待重复的key怎么办?
http://my.oschina.net/leejun2005/blog/95186
on 子句的过滤条件 作用于表的扫描阶段
where 子句的过滤条件 作用于 连接之后的结果 两者不同