2014年03月_mashroomxl

12月 04月 03月

原创 Hive.GROUPING SETS

如果说聚合函数（Simple UDAF / Generic UDAF）是HQL聚合数据查询或分析的中枢处理器，那GROUP BY可以说是聚合函数的神经了，GROUP BY收集和传递材料，然后交给聚合函数们去处理。这些材料的组织形式显得尤为重要，它们表达着分析者想要的观察维度或视角，管理着聚合函数们的操作对象。而分析者经常想要在一次分析中从多个维度去获得分析数据，对包含多个维度或多

2014-03-30 11:45:36 28574 2

原创 Hive.WHERE子句的“陷阱”

前天遇到这样一个场景： Hive数据仓库里有一个用户访问日志表my_table，这个表对日期字段date （String类型）进行了分区。此外，这个表还有一个字段page_id（Int类型），假定page_id = 9是一个特殊页面。比如我现在要针对日期范围2014-03-17到2014-03-23内去查询每天的UV，并且需要排除对以上提到的特殊页面的统计。那我

2014-03-26 23:18:13 22793 4

原创 Hive.GROUP BY子句的“陷阱”

做SQL或类SQL查询工作，跟GROUP BY打交道太频繁了，使用人士应该都晓得：在SELECT子句中出现的字段或属性，如果不是在聚合函数中，那就必须要放到GROUP BY子句里面去，反过来，没有出现在GROUP BY子句中的字段或属性，只能在聚合函数中。。。。。。有时候，我们也需要对一个字段/属性作处理，假设有这样一个场景：在Hive数据库里有表my_table，my_ta

2014-03-25 19:55:45 27242 9

原创 VI.技巧.鼠标请休息

在学校的时候，偶尔看网上的技术贴里说Linux Shell有多犀利，VI编辑器有多强大，虽然当时感觉听起来很厉害的样子，但是自己去玩了一下，看到那么多命令需要敲，那么多快捷键要记，还要对着并不赏心悦目的编辑窗口，玩两下就情不自禁地关闭它、放弃它了。工作后不久，带我的师兄就和我说Linux的基础，尤其是Shell，经常是要用到的，加紧学学、练练；工作中，时不时要跑到Shell环境下

2014-03-09 17:17:52 1508

原创 Hive.LEFT SEMI JOIN子句

公司的数据仓库和离线数据分析是建立在Hadoop + Hive基础上的，现在的工作主要是数据分析，自然也就跟HQL查询经常打交道了。刚来公司几乎完全不懂数据库知识，神马结构化查询语言也只是听说而已，不过，这没关系，实际工作一来，学习起来还是很快~~ 年前有一个同事叫帮忙查某个产品的月度留存UV这个数据，当时业务不熟，还去参照了一下别人是怎么定义留存用户这个指标的。。。然后根据自己

2014-03-09 15:51:43 10073

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人