- 博客(15)
- 资源 (1)
- 收藏
- 关注
原创 Hive 分析函数
本文首发于:大数据每日哔哔-Hive 分析函数应用场景(1)用于分区排序(2)Top N(3)层次查询常用分析函数分析函数描述RANK返回数据项在分区中的排名。排名值序列可能会有间隔DENSE_RANK返回数据项在分区中的排名。排名值序列是连续的,没有间隔PERCENT_RANK计算当前行的百分比排名:(x - 1)/(窗口分区中的行数 - 1)...
2020-01-31 16:55:29 236
原创 Hive 的窗口函数
本文首发于:微信公众号【大数据每日哔哔,文章:Hive SQL 窗口函数在 SQL 中有一类函数叫做聚合函数,例如 sum()、avg()、max()、min() 等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是,有时候我们既要显示聚集前的数据,又要显示聚集后的数据,此时我们便引入了窗口函数。窗口函数主要用于 OLAP 数据分析。在深入研究Ove...
2020-01-31 16:54:30 489
原创 Hive SQL 分析函数
本文首发于:大数据每日哔哔-Hive 分析函数Hive 分析函数应用场景(1)用于分区排序<br />(2)Top N<br />(3)层次查询<a name="kFMpa"></a>常用分析函数分析函数描述RANK返回数据项在分区中的排名。排名值序列可能会有间隔DENSE_RANK返回数据项在...
2020-01-31 16:48:43 676
原创 Hive SQL 窗口函数
本文首发:大数据每日哔哔-Hive SQL 窗口函数Hive 的窗口函数在 SQL 中有一类函数叫做聚合函数,例如 sum()、avg()、max()、min() 等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是,有时候我们既要显示聚集前的数据,又要显示聚集后的数据,此时我们便引入了窗口函数。窗口函数主要用于 OLAP 数据分析。...
2020-01-31 16:46:22 487
原创 Spark SQL 简介
是什么?imageSpark 1.0 推出 Spark SQL,是 Spark 生态系统中最活跃的组件之一。能够利用 Spark 进行结构化的存储和操作。结构化数据可以来自外部源:Hive/Json/parquet,1.2开始支持 JDBC等,也可以对已有 RDD 增加 Schema 的方式获得。当前 Spark SQL 使用 Catalyst 优化器对 SQL...
2020-01-12 02:15:01 121
原创 Spark SQL 简介
是什么?Spark 1.0 推出 Spark SQL,是 Spark 生态系统中最活跃的组件之一。能够利用 Spark 进行结构化的存储和操作。结构化数据可以来自外部源:Hive/Json/parquet,1.2开始支持 JDBC等,也可以对已有 RDD 增加 Schema 的方式获得。当前 Spark SQL 使用 Catalyst 优化器对 SQL 语句进行优化,从而得到更好的执行方案。...
2020-01-12 02:12:31 280
原创 Hive ETL 任务调优(参数篇)
Hive 调优-参数篇图片来源网络,点赞工作中常用的 hive 参数调优,整理如下。原则:最少数据最少字段最少Job数最少读取次数避免数据倾斜整体最优而不是局部最优JVM 内存文件大小合理切分这里需要结合集群的资源来合理的设置切片大小。# 文件分割大小set mapreduce.input.fileinputformat.split.maxsize=53687...
2020-01-11 15:18:17 1097
原创 Hive ETL 优化(参数篇)
Hive 调优-参数篇image.png<**工作中常用的 hive 参数调优,整理如下。原则:最少数据最少字段最少Job数最少读取次数避免数据倾斜整体最优而不是局部最优JVM 内存<a name="lLlWa"></a>文件大小合理切分这里需要结合集群的资源来合理的设置切片大小。# 文件分割大小se...
2020-01-11 15:15:20 306
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人