Spark SQL专栏
文章平均质量分 52
用示例和图表详细介绍Spark SQL的各种实践。包括各种常用函数,窗口函数,用户自定义的聚合、非聚合函数等。
野男孩
坚持做技术的土人
展开
-
Spark在Windows/Linux下的最简安装
Spark在Windows/Linux下的最简安装废话部分Windows下的安装安装JDK 1.8安装Spark 2.1.0运行spark-shellLinux下的安装安装JDK 1.8安装Spark 2.1.0运行spark-shell废话部分因为在外地出差临时需要个Spark环境,就搭了一个,其实蛮简单的。想到总是会有萌新刚开始起步,也许就有无从下手的困扰,于是顺便就发个blog丰富下内容...原创 2019-04-06 20:04:21 · 1687 阅读 · 0 评论 -
Spark SQL操作之-函数汇总篇-上
函数汇总篇部分是整理Spark SQL的内置函数,窗口函数、自定义函数以及自定义聚合函数的用法。本篇主要是分享了内置函数部分,挑了一部分函数的示例说明其用法。包括数学函数,聚合函数,集合函数,字符串处理函数,日期函数等。原创 2019-05-28 08:57:03 · 2712 阅读 · 0 评论 -
Spark SQL操作之-函数汇总篇-中
Welcome to StackEdit!环境说明1. JDK 1.82. Spark 2.1继续函数部分内容,这一篇补上窗口函数部分。窗口函数是什么窗口函数,顾名思义,这里存在一个窗口的概念。也就是指表内数据参与到函数计算的一个区间。这里说的计算区间,我理解是有两个意思。第一是看是否需要按指定的列来对数据进行分区。第二是看分区确定后是否还指定了对分区数据的进一步的限定。包括rows...原创 2019-06-09 08:54:17 · 4970 阅读 · 4 评论 -
Spark的Dataset操作(二)-过滤的filter和where
spark-sql的filter,where的用法原创 2017-07-12 06:40:50 · 60261 阅读 · 0 评论 -
Spark的Dataset操作(三)-分组,聚合,排序
spark sql的分组聚合操作,包括groupBy, agg, count, max, avg, sort, orderBy等函数示例原创 2017-07-14 21:29:27 · 44436 阅读 · 5 评论 -
Spark的Dataset操作(四)-其他单表操作
Spark的Dataset操作(四)-其他单表操作还有些杂七杂八的小用法没有提到,比如添加列,删除列,null值处理之类的,就在这里大概列一下吧。原创 2017-07-16 21:10:58 · 12961 阅读 · 3 评论 -
Spark的Dataset操作(五)-多表操作 join
spark-sql的多表join操作示例,包括内连接inner join, 外连接outer join,左外连接left_join, 右外连接right_join, 左半连接leftsemi, 以及笛卡尔连接crossjoin. 并介绍了对条件连接的支持。原创 2017-07-21 06:49:29 · 27517 阅读 · 5 评论 -
Spark SQL操作之-函数汇总篇-下
Spark SQL操作之-自定义函数篇-下环境说明自定义函数分类用户自定义函数(UDF)用户自定义聚合函数(UDAF)环境说明1. JDK 1.82. Spark 2.1自定义函数分类不同的业务需要不同的处理函数,所以spark也支持用户自定义函数来做专用的处理。这里的自定义函数分两大类:用户已定义函数(UDF)和用户自定义聚合函数(UDAF)。用户自定义函数(UDF)用户自定义函...原创 2019-09-12 22:15:05 · 1966 阅读 · 0 评论