SQL Functions
文章平均质量分 77
Mike_H
这个作者很懒,什么都没留下…
展开
-
分析函数_CUME_DIST -- SQL Server 2012 & Hive
最近在整理 Hie 分析函数资料的时候,看到了 CUME_DIST,百度后还是不知其意。于是乎用起了之前介绍的 Webcrawler 搜索引擎 :http://www.webcrawler.com/发现 SQL Server中也包含该分析函数。接下来让我们看看如何在 SQL Server 2012 中使用该分析函数,以帮助大家深入理解 CUME_DIST 函数在 Hive 中的使用。根据原创 2015-12-12 15:50:39 · 1273 阅读 · 0 评论 -
分析函数_PERCENT_RANK -- SQL Server 2012 & Hive
刚才已经介绍了 CUME_DIST 在 SQL Server 2012 (Hive)中的应用。因为在 Hive 中的语法跟 Server2012 中相同,所以我这里就不过多叙述 Hive 中使用的细节了。PERCENT_RANK() 函数会返回当前查询结果集和分区的一个相对值。如果你希望进一步了解该函数,可以参考:https://en.wikipedia.org/wiki/Percen原创 2015-12-12 22:11:47 · 1470 阅读 · 0 评论 -
Row_number & Rank & Dense_Rank
无论是传统数据库还是 Hadoop 数据仓库 Hive,我们都会涉及到窗口函数。今天利用 SQL Server 跟大家总结一下这Rank, Dense_rank, Row_number 三种函数的使用场景及区别:1. Rank() vs Dense_Rank()Rank() 会将数据进行排序。同一个分区下的对应的值从1开始递增,对于排序相同的字段拥有相同的排序值。不同的字段对应着自原创 2015-12-12 13:08:00 · 688 阅读 · 0 评论 -
Hive_6. 数据聚合 -- Group By & Grouping_SETS & RollUp & CUBE & Having
先完善列表结构,会后续填充内容原创 2015-12-03 15:24:25 · 11764 阅读 · 0 评论 -
Hive_7. 数据抽样
当数据规模不断膨胀时,我们需要找到一个数据的子集来加快数据分析效率。因此我们就需要通过筛选和分析数据集为了进行模式 & 趋势识别。目前来说有三种方式来进行抽样:随机抽样,桶表抽样,和块抽样。1 随机抽样(Random sampling):使用 RAND()函数和 LIMIT 关键字来获得抽样数据。DISTRIBUTE 和 SORT 关键字在这里用来确保 mappers 和原创 2015-12-03 15:25:40 · 2912 阅读 · 0 评论