大数据
文章平均质量分 94
y鱼鱼
这个作者很懒,什么都没留下…
展开
-
PySparkSQL( DataFrame进阶,函数定义)
开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用 GROUP BY 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。●聚合函数和开窗函数聚合函数是将多行变成一行,count,avg....开窗函数是将一行变成多行;聚合函数如果要显示其他的列必须将列加入到group by中开窗函数可以不使用group by,直接将所有信息显示出来。原创 2023-02-27 14:00:32 · 1284 阅读 · 0 评论 -
PySparkSQL 入门(概述、DataFrame操作)
SparkSQL 是Spark的一个模块, 用于处理海量结构化数据第一、针对结构化数据处理,属于Spark框架一个部分第二、抽象数据结构:DataFrameDataFrame = RDD + Schema信息;第三、分布式SQL引擎,类似Hive框架从Hive框架继承而来,Hive中提供bin/hive交互式SQL命令行及HiveServer2服务,SparkSQL都可以;Spark SQL模块架构示意图如下。原创 2023-02-27 13:50:36 · 1233 阅读 · 0 评论