spark sql
文章平均质量分 54
rookie_bigdata
菜鸟一枚
展开
-
spark sql / dataframe 二次排序,多字段排序问题
问题:spark sql / dataframe 日常操作中经常需要全局二次排序或者说针对多个字段排序然后输出到一个文件中,直接使用 order by 达不到想要的结果,只是分区内有序。解决:在sql中使用distribute by A_字段 sort by A_字段,B_字段 如果是dataframe,就先将dataframe注册为临时表,再使用sqldf.createOrReplaceTempView("temp_tb")spark.sql("select * from tem原创 2022-02-25 15:21:16 · 1878 阅读 · 0 评论 -
spark sql 开窗函数加条件
需求:如下图 test.csv,dataframe 中每行都需要添加前边跟后边最近的的 SSSSSSS* 记录对应的值。解决方案:无法通过 lead, lag 等方法实现,因为开窗函数选定的数据框无法加上条件思路 - 通过两次 Join 分别找到前后最近的 SSSSSS*记录,代码如下var df = spark.read.option("header", "true").csv("C:\\Users\\XXX\\Desktop\\test.csv") // 读取文件df = df.原创 2021-03-10 15:37:27 · 1086 阅读 · 0 评论