Spark的DataFrame的窗口函数使用

最新推荐文章于 2024-07-09 07:15:00 发布

Syn良子

最新推荐文章于 2024-07-09 07:15:00 发布

阅读量3.3k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/cssdongl/article/details/77750461

版权

本文介绍了如何在Spark中利用DataFrame实现窗口函数，如row_number，通过pyspark进行测试和问题解决，包括错误排查和代码修改过程。文章强调了DataFrame在功能上的全面性，虽然语法可能相对复杂。

摘要由CSDN通过智能技术生成

作者：Syn良子出处：http://www.cnblogs.com/cssdongl 转载请注明出处

SparkSQL这块儿从1.4开始支持了很多的窗口分析函数，像row_number这些，平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下

val sqlContext = new SQLContext(sc)

sqlContext.sql(“select ….”)

然而我看到Spark后续版本的DataFrame功能很强大，想试试使用这种方式来实现比如row_number这种功能，话不多说，快速用pyspark测试一下，记录一下遇到的问题.

from pyspark.sql import Row, functions as F
from pyspark.sql.window import Window
from pyspark import SparkContext
sc = SparkContext("local[3]", "test data frame on 2.0")
testDF = sc.parallelize( (Row(c="class1", s=50), Row(c="class2", s=40), Row(c="class3", s=70), Row(c="class2", s=49), Row(c="class3", s=29), Row(c="class1", s=78) )).toDF()
(testDF.select("c", "s", F.rowNumber().over(Window.partitionBy("c").orderBy("s")).alias("rowNum") ).show())

spark-submit提交任务后直接报错如下

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Syn良子

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark DataFrame 添加列总结

主要分享大数据相关的知识，如Spark、Hudi

12-06

2990

我的原创地址：https://dongkelun.com/2021/05/19/localSparkHiveWithKerberos/ 前言因添加列在平时可能会经常用到，但是长时间不用，可能会忘记应该用哪个函数，这样再重新查找比较耽误时间，于是总结代码进行备忘。主要总结：根据现有的列添加添加自增ID 添加一列常量添加当前时间转换为timestamp类型转换为date类型代码 package com.dkl.blog.spark.df import java.util.Date imp

spark的window窗口函数

01-09

spark窗口函数的测试代码和数据主要包括 countByKeyValueAndWindow reduceByKeyAndWindows

参与评论您还未登录，请先登录后发表或查看评论

摸鱼大数据——Spark SQL——Spark SQL函数定义一

最新发布

weixin_65694308的博客

07-09

707

自定义函数流程：第一步: 在PySpark中创建一个Python的函数，在这个函数中书写自定义的功能逻辑代码即可第二步: 将Python函数注册到Spark SQL中注册方式一: udf对象 = sparkSession.udf.register(参数1,参数2,参数3)参数1: 【UDF函数名称】，此名称用于后续在SQL中使用，可以任意取值，但是要符合名称的规范参数2: 【自定义的Python函数】，表示将哪个Python的函数注册为Spark SQL的函数。

Spark Sql窗口函数的使用（2）

zg_hover的专栏

10-31

1043

接上一节，本文继续介绍窗口函数的使用。但会介绍如何基于窗口函数的范围函数来进行计算。准备工作准备依赖库 import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ 准备数据 case class Salary(depName: String, empNo: Long, name: String, sa

Spark DataFrame 的窗口函数使用的两种形式介绍

helloxiaozhe的博客

07-27

3639

1、概述上文介绍了sparkdataframe常用操作算子。除此外，spark还有一类操作比较特别——窗口函数。 窗口函数常多用于sql，spark sql也集成了，同样，spark dataframe也有这种函数，spark sql的窗口函数与spark dataframe的写法不太一样。 1.1、spark sql 写法 select pcode,event_date,sum(duration) over (partition by pcode order by event_date as.

dataframe 模仿sql实现窗口函数功能 lead lag dataframe groupy 实现窗口函数

Caiqiudan的博客

01-07

1394

df：DataFrame，每个工单的操作日志表。列：工单号, 操作时间,操作行为代码我想找出有哪些工单进行了操作1之后紧接着就是进行操作5 如果是在sql中，直接用lead窗口函数就行。但是在dataframe中，需要结合groupby和sort_values、shift来实现。 # 1. 按工单和操作时间排序 df.sort_values(['工单号','操作时间'], inplace=True) # 2. 给予每行操作一个唯一的主键 df['id'] = range(len(df)) # 3.

Spark DataFrame算子使用与窗口函数

jiede1的博客

05-05

3466

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

python中的join函数连接dataframe_Spark DataFrame中的join使用说明

weixin_30942339的博客

12-29

1366

spark sql 中join的类型Spark DataFrame中join与SQL很像，都有inner join, left join, right join, full join;类型说明inner join内连接left join左连接right join右连接full join全连接spark join看其原型def join(right : DataFrame, usingColumn...

Spark15：Spark SQL：DataFrame常见算子操作、DataFrame的sql操作、RDD转换为DataFrame、load和save操作、SaveMode、内置函数

weixin_40612128的博客

03-09

2484

前面我们学习了Spark中的Spark core，离线数据计算，下面我们来学习一下Spark中的Spark SQL。一、Spark SQL 二、SparkSession 三、创建DataFrame 四、DataFrame常见算子操作五、DataFrame的sql操作六、RDD转换为DataFrame 1、反射方式 2、编程方式七、load和save操作八、SaveMode 九、内置函数 ...

Spark dataframe使用详解

12-05

本文档详细的描述了SPARK DATAFRAME架构的使用，列举了详细的例子，通俗易懂

DataFrame窗口函数操作

zy345293721的博客

10-19

852

DataFrame窗口函数操作

spark的开窗函数实战

qq_34936033的博客

02-05

524

1、count(*) 2、row_number() over()排序 3、row_number() over(partition by……分区 4、【开窗嵌套开窗】rank() over() 5、dense_rank() over() 函数一、count(*) 得到所有专业下所有老师的访问数： valmiddleData:DataFrame=session.sql(...

Pyspark中使用窗口函数和透视表

weixin_40675092的博客

07-04

409

一、处理json格式的hdfs日志处理json格式的日志，常规方法是使用sc.textFile(hdfs_path)读数据，然后json.loads()将没一行json串解析成字典，但是解析json串时会产生pyton-spark的数据交互，这种交互的成本很大。spark2.0以上的版本支持spark.sql.read.json方法直接读取json格式，但是分布式文件系统的json日志往往是很不规整的，json串的key各有不同，甚至相同的key，值的属性也不一样（1000， “1000”），脏的数据会.

Spark SQL:从入门到精通(五)[开窗函数]

04-23

5481

概述 https://www.cnblogs.com/qiuting/p/7880500.html 介绍: 开窗函数的引入是为了既显示聚集前的数据，又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合)，它对一组值进行操作，不需要使用 GROUP BY 子句对数据进行分组，能够在同一行中同时返回基础行的列和聚合列。聚合函数...

Spark中DataFrame基本操作函数

别说话写代码的博客

07-30

1385

Action 操作 1、collect() ,返回值是一个数组，返回dataframe集合所有的行 2、collectAsList() 返回值是一个java类型的数组，返回dataframe集合所有的行 3、count() 返回一个number类型的，返回dataframe集合的行数 4、describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max)，这个可以传多个参数，中间用逗号分隔，如果有字段为空，那么不参与运算...

Spark-SQL之DataFrame操作大全

weixin_30355437的博客

10-12

5887

　　Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。　　本文中的代码基于Spark-1.6.2的文档实现。一、DataFrame对象的生成　　Spark-SQL可以以其他RDD对象、parquet文...

dataframe的一些操作及用法：

sunbin11220904的博客

09-17

2982

DataFrame 的函数 Action 操作 1、 collect() ,返回值是一个数组，返回dataframe集合所有的行 2、 collectAsList() 返回值是一个java类型的数组，返回dataframe集合所有的行 3、 count() 返回一个number类型的，返回dataframe集合的行数 4、 describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max)，这个可以传多个参数，中间用逗号分隔，如

spark DataFrame 使用方法

03-31

Spark DataFrame是一种分布式数据集，类似于关系型数据库中的表格。以下是使用Spark DataFrame的方法： ...DataFrame提供了很多高级功能，例如窗口函数、连接操作等等，可以根据具体需求进行学习和使用。