2020年01月_程序员小陶

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Hive 分析函数

本文首发于：大数据每日哔哔-Hive 分析函数应用场景（1）用于分区排序（2）Top N（3）层次查询常用分析函数分析函数描述RANK返回数据项在分区中的排名。排名值序列可能会有间隔DENSE_RANK返回数据项在分区中的排名。排名值序列是连续的，没有间隔PERCENT_RANK计算当前行的百分比排名:（x - 1）/（窗口分区中的行数 - 1）...

2020-01-31 16:55:29 236

本文首发于：微信公众号【大数据每日哔哔，文章：Hive SQL 窗口函数在 SQL 中有一类函数叫做聚合函数，例如 sum()、avg()、max()、min() 等等，这类函数可以将多行数据按照规则聚集为一行，一般来讲聚集后的行数是要少于聚集前的行数的。但是，有时候我们既要显示聚集前的数据，又要显示聚集后的数据，此时我们便引入了窗口函数。窗口函数主要用于 OLAP 数据分析。在深入研究Ove...

2020-01-31 16:54:30 489

原创 Hive SQL 分析函数

本文首发于：大数据每日哔哔-Hive 分析函数Hive 分析函数应用场景（1）用于分区排序<br />（2）Top N<br />（3）层次查询<a name="kFMpa"></a>常用分析函数分析函数描述RANK返回数据项在分区中的排名。排名值序列可能会有间隔DENSE_RANK返回数据项在...

2020-01-31 16:48:43 676

原创 Hive SQL 窗口函数

本文首发：大数据每日哔哔-Hive SQL 窗口函数Hive 的窗口函数在 SQL 中有一类函数叫做聚合函数，例如 sum()、avg()、max()、min() 等等，这类函数可以将多行数据按照规则聚集为一行，一般来讲聚集后的行数是要少于聚集前的行数的。但是，有时候我们既要显示聚集前的数据，又要显示聚集后的数据，此时我们便引入了窗口函数。窗口函数主要用于 OLAP 数据分析。...

2020-01-31 16:46:22 487

原创如何优雅的关闭 Spark Streaming 程序（2种思路）

精选30+云产品，助力企业轻松上云！>>> 点...

2020-01-21 05:28:00 1028

原创欢迎加入免费星球，一起交流大数据技术。

精选30+云产品，助力企业轻松上云！>>> ...

2020-01-20 21:50:00 269

原创 Hive UDF 函数指南

精选30+云产品，助力企业轻松上云！>>> ...

2020-01-19 00:39:00 169

原创 Hive 导数据到本地（2种方式）

精选30+云产品，助力企业轻松上云！>>> ...

2020-01-18 01:03:00 2307

原创 Hadoop HA 深度解剖

精选30+云产品，助力企业轻松上云！>>> ...

2020-01-18 01:03:00 113

原创 ORC 在 Hive 中的应用

精选30+云产品，助力企业轻松上云！>>> ...

2020-01-14 23:55:00 396

原创 Spark SQL 简介

是什么？imageSpark 1.0 推出 Spark SQL,是 Spark 生态系统中最活跃的组件之一。能够利用 Spark 进行结构化的存储和操作。结构化数据可以来自外部源：Hive/Json/parquet，1.2开始支持 JDBC等，也可以对已有 RDD 增加 Schema 的方式获得。当前 Spark SQL 使用 Catalyst 优化器对 SQL...

2020-01-12 02:15:01 121

原创 Spark SQL 简介

是什么？Spark 1.0 推出 Spark SQL,是 Spark 生态系统中最活跃的组件之一。能够利用 Spark 进行结构化的存储和操作。结构化数据可以来自外部源：Hive/Json/parquet，1.2开始支持 JDBC等，也可以对已有 RDD 增加 Schema 的方式获得。当前 Spark SQL 使用 Catalyst 优化器对 SQL 语句进行优化，从而得到更好的执行方案。...

2020-01-12 02:12:31 280

原创 Hive ETL 任务调优（参数篇）

Hive 调优-参数篇图片来源网络，点赞工作中常用的 hive 参数调优，整理如下。原则：最少数据最少字段最少Job数最少读取次数避免数据倾斜整体最优而不是局部最优JVM 内存文件大小合理切分这里需要结合集群的资源来合理的设置切片大小。# 文件分割大小set mapreduce.input.fileinputformat.split.maxsize=53687...

2020-01-11 15:18:17 1097

原创 Hive ETL 优化（参数篇）

Hive 调优-参数篇image.png<**工作中常用的 hive 参数调优，整理如下。原则：最少数据最少字段最少Job数最少读取次数避免数据倾斜整体最优而不是局部最优JVM 内存<a name="lLlWa"></a>文件大小合理切分这里需要结合集群的资源来合理的设置切片大小。# 文件分割大小se...

2020-01-11 15:15:20 306

原创优化 Hive ETL 任务(参数篇)

精选30+云产品，助力企业轻松上云！>>> ...

2020-01-11 13:59:00 361

hive 优化思维导图

hive 优化在面试以及工作中经常使用，我整理了一份思维导图供大家学习。

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

程序员小陶的大数据分享

原创 Hive 分析函数

原创 Hive 的窗口函数

原创 Hive SQL 分析函数

原创 Hive SQL 窗口函数

原创如何优雅的关闭 Spark Streaming 程序（2种思路）

原创欢迎加入免费星球，一起交流大数据技术。

原创 Hive UDF 函数指南

原创 Hive 导数据到本地（2种方式）

原创 Hadoop HA 深度解剖

原创 ORC 在 Hive 中的应用

原创 Spark SQL 简介

原创 Spark SQL 简介

原创 Hive ETL 任务调优（参数篇）

原创 Hive ETL 优化（参数篇）

原创优化 Hive ETL 任务(参数篇)

hive 优化思维导图

空空如也