- 博客(5)
- 收藏
- 关注
原创 Hive.GROUPING SETS
如果说聚合函数(Simple UDAF / Generic UDAF)是HQL聚合数据查询或分析的中枢处理器,那GROUP BY可以说是聚合函数的神经了,GROUP BY收集和传递材料,然后交给聚合函数们去处理。这些材料的组织形式显得尤为重要,它们表达着分析者想要的观察维度或视角,管理着聚合函数们的操作对象。 而分析者经常想要在一次分析中从多个维度去获得分析数据,对包含多个维度或多
2014-03-30 11:45:36 28574 2
原创 Hive.WHERE子句的“陷阱”
前天遇到这样一个场景: Hive数据仓库里有一个用户访问日志表my_table,这个表对日期字段date (String类型)进行了分区。此外,这个表还有一个字段page_id(Int类型),假定page_id = 9是一个特殊页面。 比如我现在要针对日期范围2014-03-17到2014-03-23内去查询每天的UV,并且需要排除对以上提到的特殊页面的统计。那我
2014-03-26 23:18:13 22793 4
原创 Hive.GROUP BY子句的“陷阱”
做SQL或类SQL查询工作,跟GROUP BY打交道太频繁了,使用人士应该都晓得:在SELECT子句中出现的字段或属性,如果不是在聚合函数中,那就必须要放到GROUP BY子句里面去,反过来,没有出现在GROUP BY子句中的字段或属性,只能在聚合函数中。。。。。。 有时候,我们也需要对一个字段/属性作处理,假设有这样一个场景:在Hive数据库里有表my_table,my_ta
2014-03-25 19:55:45 27242 9
原创 VI.技巧.鼠标请休息
在学校的时候,偶尔看网上的技术贴里说Linux Shell有多犀利,VI编辑器有多强大,虽然当时感觉听起来很厉害的样子,但是自己去玩了一下,看到那么多命令需要敲,那么多快捷键要记,还要对着并不赏心悦目的编辑窗口,玩两下就情不自禁地关闭它、放弃它了。 工作后不久,带我的师兄就和我说Linux的基础,尤其是Shell,经常是要用到的,加紧学学、练练;工作中,时不时要跑到Shell环境下
2014-03-09 17:17:52 1508
原创 Hive.LEFT SEMI JOIN子句
公司的数据仓库和离线数据分析是建立在Hadoop + Hive基础上的,现在的工作主要是数据分析,自然也就跟HQL查询经常打交道了。刚来公司几乎完全不懂数据库知识,神马结构化查询语言也只是听说而已,不过,这没关系,实际工作一来,学习起来还是很快~~ 年前有一个同事叫帮忙查某个产品的月度留存UV这个数据,当时业务不熟,还去参照了一下别人是怎么定义留存用户这个指标的。。。然后根据自己
2014-03-09 15:51:43 10073
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人