自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员小陶的大数据分享

技术 | 认知 | 思维

  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hive 分析函数

本文首发于:大数据每日哔哔-Hive 分析函数应用场景(1)用于分区排序(2)Top N(3)层次查询常用分析函数分析函数描述RANK返回数据项在分区中的排名。排名值序列可能会有间隔DENSE_RANK返回数据项在分区中的排名。排名值序列是连续的,没有间隔PERCENT_RANK计算当前行的百分比排名:(x - 1)/(窗口分区中的行数 - 1)...

2020-01-31 16:55:29 236

原创 Hive 的窗口函数

本文首发于:微信公众号【大数据每日哔哔,文章:Hive SQL 窗口函数在 SQL 中有一类函数叫做聚合函数,例如 sum()、avg()、max()、min() 等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是,有时候我们既要显示聚集前的数据,又要显示聚集后的数据,此时我们便引入了窗口函数。窗口函数主要用于 OLAP 数据分析。在深入研究Ove...

2020-01-31 16:54:30 489

原创 Hive SQL 分析函数

本文首发于:大数据每日哔哔-Hive 分析函数Hive 分析函数应用场景(1)用于分区排序<br />(2)Top N<br />(3)层次查询<a name="kFMpa"></a>常用分析函数分析函数描述RANK返回数据项在分区中的排名。排名值序列可能会有间隔DENSE_RANK返回数据项在...

2020-01-31 16:48:43 676

原创 Hive SQL 窗口函数

本文首发:大数据每日哔哔-Hive SQL 窗口函数Hive 的窗口函数在 SQL 中有一类函数叫做聚合函数,例如 sum()、avg()、max()、min() 等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是,有时候我们既要显示聚集前的数据,又要显示聚集后的数据,此时我们便引入了窗口函数。窗口函数主要用于 OLAP 数据分析。...

2020-01-31 16:46:22 487

原创 如何优雅的关闭 Spark Streaming 程序(2种思路)

精选30+云产品,助力企业轻松上云!>>> 点...

2020-01-21 05:28:00 1028

原创 欢迎加入免费星球,一起交流大数据技术。

精选30+云产品,助力企业轻松上云!>>> ...

2020-01-20 21:50:00 269

原创 Hive UDF 函数指南

精选30+云产品,助力企业轻松上云!>>> ...

2020-01-19 00:39:00 169

原创 Hive 导数据到本地(2种方式)

精选30+云产品,助力企业轻松上云!>>> ...

2020-01-18 01:03:00 2307

原创 Hadoop HA 深度解剖

精选30+云产品,助力企业轻松上云!>>> ...

2020-01-18 01:03:00 113

原创 ORC 在 Hive 中的应用

精选30+云产品,助力企业轻松上云!>>> ...

2020-01-14 23:55:00 396

原创 Spark SQL 简介

是什么?imageSpark 1.0 推出 Spark SQL,是 Spark 生态系统中最活跃的组件之一。能够利用 Spark 进行结构化的存储和操作。结构化数据可以来自外部源:Hive/Json/parquet,1.2开始支持 JDBC等,也可以对已有 RDD 增加 Schema 的方式获得。当前 Spark SQL 使用 Catalyst 优化器对 SQL...

2020-01-12 02:15:01 121

原创 Spark SQL 简介

是什么?Spark 1.0 推出 Spark SQL,是 Spark 生态系统中最活跃的组件之一。能够利用 Spark 进行结构化的存储和操作。结构化数据可以来自外部源:Hive/Json/parquet,1.2开始支持 JDBC等,也可以对已有 RDD 增加 Schema 的方式获得。当前 Spark SQL 使用 Catalyst 优化器对 SQL 语句进行优化,从而得到更好的执行方案。...

2020-01-12 02:12:31 280

原创 Hive ETL 任务调优(参数篇)

Hive 调优-参数篇图片来源网络,点赞工作中常用的 hive 参数调优,整理如下。原则:最少数据最少字段最少Job数最少读取次数避免数据倾斜整体最优而不是局部最优JVM 内存文件大小合理切分这里需要结合集群的资源来合理的设置切片大小。# 文件分割大小set mapreduce.input.fileinputformat.split.maxsize=53687...

2020-01-11 15:18:17 1097

原创 Hive ETL 优化(参数篇)

Hive 调优-参数篇image.png<**工作中常用的 hive 参数调优,整理如下。原则:最少数据最少字段最少Job数最少读取次数避免数据倾斜整体最优而不是局部最优JVM 内存<a name="lLlWa"></a>文件大小合理切分这里需要结合集群的资源来合理的设置切片大小。# 文件分割大小se...

2020-01-11 15:15:20 306

原创 优化 Hive ETL 任务(参数篇)

精选30+云产品,助力企业轻松上云!>>> ...

2020-01-11 13:59:00 361

hive 优化思维导图

hive 优化在面试以及工作中经常使用,我整理了一份思维导图供大家学习。

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除