hive
Lancer_Wu
这个作者很懒,什么都没留下…
展开
-
hive 旧版本 随机抽样查询
mysql的随机抽样查询很简单,但是对于hive来说就没那么简单了,尤其是公司的hive数据库版本特别old,导致一次次的尝试之后才发现了可用的随机抽样查询方法。当然,这是全部数据里的随机抽样,想要实现分组抽样,我是用python进行二次处理。select distinct a.字段1 , a.字段2from a left outer join con a.xxx = c.xxxw...原创 2019-04-20 16:57:22 · 124 阅读 · 0 评论 -
hive 两表合并的坑 union all
mysql上两表合并有很多种写法,但是受限于公司的史前hive数据库版本的问题,很多很多的骚操作都排不上用场,比如用exists判断是否存在于子表,where判断在另外一张表是否存在等,只能用union all合表。请注意,必须是union all,只用union是会失败的……select a.xxx, a.xxx from a left outer join con a.xxx =...原创 2019-04-20 17:05:00 · 10012 阅读 · 0 评论 -
hive mapjoin 提升连表查询的速度
当一张表比较大而一张表比较小的时候,进行join的时候使用mapjoin函数,可以提升查询速度。select /* +mapjoin(b) */ a.xxx, a.xxxfrom ainner join bon a.xxx = b.xxx;...原创 2019-04-20 16:50:11 · 562 阅读 · 0 评论