【Spark】spark去重操作（窗口函数、内置函数）

最新推荐文章于 2023-12-01 09:51:16 发布

beautiful_huang

最新推荐文章于 2023-12-01 09:51:16 发布

阅读量1.3k

点赞数 1

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/beautiful_huang/article/details/104476950

版权

Spark 专栏收录该内容

31 篇文章 2 订阅

订阅专栏

在这里插入图片描述
查看重复记录

找到最新的时间戳去重(窗口函数)

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions._
val dfResult = dfTraining.withColumn("rn",row_number() over Window.partitionBy($"user",$"event").orderBy($"timestamp".desc)).filter($"rn"===lit(1))

找到最新的时间戳去重(spark 内置去重方式)

val dfResult1 = dfTraining.repartition($"user",$"event").sortWithinPartitions($"timestamp".desc).dropDuplicates("user","event")
dfResult1.count

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

beautiful_huang

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hive 函数(内置函数、日期函数、窗口函数、自定义函数UDF)

03-03

1628

hive 函数自定义函数UDF

spark中distinct函数去重原理

weixin_43866709的博客

03-21

883

spark中的distinct函数去重方式

参与评论您还未登录，请先登录后发表或查看评论

spark2.4 sql 快速列去重（冗余列检查）

u010990043的博客

12-26

2485

一直想做一个勤奋的人，笔耕方田，将自己在从事spark开发四年来积累的奇淫巧技分享出来。在给大家提供参考方案的同时也在总结和优化之前的设计。如果在有幸碰到大牛忍不住提出更好的优化方案能从中受益，也不枉码了这么多字。每当设计出一个很好的计算方案，就会忍不住打开博客想分享出来。然后会一直琢磨该以什么样的文字描述出来，想着想着就放弃了。总是想构思一个比较完美的结构段落，结果到最后什么也没...

spark5种去重方式,快速去重

qq_39285950的博客

01-01

6945

双重group by将去重分成了两步,是分组聚合运算,group by操作能进行多个reduce任务并行处理,每个reduce都能收到一部分数据然后进行分组内去重,不再像distinct只有一个reduce进行全局去重.sql中最简单的方式,当数据量小的时候性能还好.当数据量大的时候性能较差.因为distinct全局只有一个reduce任务来做去重操作,极容易发生数据倾斜的情况,整体运行效率较慢.DataFrame中,可以先将分区内数据进行排序,然后通过dropDuplicates将重复的数据删除.

spark选择去重

Accelerating的博客

09-02

1203

在spark计算当中，我们日常有些简单需求，比如去重，比如有四列（appid、date、type、platform），我们只需要对appid，date进行去重，另外两列不关注。在spark中，distinct会对所有列执行去重操作，两行比较，只要有个一列有差异，就不算重复。要解决，只对某几列进行去重，可以使用Top N 的思路，也就是先分组，分组后，我们只取row_num=1第一行就可以了。具体实现代码如下： //选出某几列，去掉空值 Dataset dataset = input.selec

实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重

lin的专栏

04-04

1199

http://lxw1234.com/archives/2018/02/901.htm在实时流式计算中，最重要的是在任何情况下，消息不重复、不丢失，即Exactly-once。本文以Kafka–>Spark Streaming–>Redis为例，一方面说明一下如何做到Exactly-once，另一方面说明一下我是如何计算实时去重指标的。1. 关于数据源数据源是文本格式的日志，由Ngin...

spark实现用窗口函数进行去重计数的功能

longwei92的博客

06-27

2403

df.withColumn("new_col_name", size(collect_set($"need_count_col_name").over(Window.partitionBy($"window_col_name")))) //同理在hive中也可以采用这种利用size和collect_set的形式实现用窗口函数进行去重计数的功能 ...

Spark SQL之内置函数

威少（微笑）

06-19

788

目录一：DataFrame的内置函数作用二：DataFram的的内置函数等三：案例实战四：混合函数一：DataFrame的内置函数作用 DataFrame的函数并会执行后立即返回一个结果值，而是返回一个Column对象，用于在并行作业中进行求值 Column可以用在DataFrame的操作之中，比如select，filter，groupBy等。函数的输入值，也可以是C...

Spark SQL中的聚合函数及其应用

它提供了用于处理结构化数据的接口，允许用户使用SQL查询数据，还可以通过Spark的API以编程方式操作数据。Spark SQL支持多种数据源，包括Parquet、Avro、JSON等，也可以集成Hive，并且可以与Hadoop的HDFS以及其他...

Spark SQL中的聚合函数及使用方法

# 1. 简介 ## 1.1 Spark SQL概述 Spark SQL是Apache Spark的一个模块，用于处理结构化数据和...聚合函数可以对一组相同或不同的数据进行操作，返回一个单一的结果。常见的聚合函数包括求和、平均值、最大值、最小值和

SPARK实现单字段窗口函数

10-28

在SPARK中实现对单字段分区，对单字段排序，进行窗口函数ROWNUMBER以及LIMIT

【spark床头书系列】Spark Structured Streaming 编程权威指南

最新发布

wang2leee的博客

12-01

1228

Spark Structured Streaming 编程权威指南,看一篇就够了

Spark SQL 自定义函数、开窗函数

最慢的步伐不是跬步，而是徘徊；最快的脚步不是冲刺，而是坚持

04-22

8221

目录 RDD、DF、DS三者之间的转化 Spark SQL自定义函数开窗函数的作用开窗函数的分类聚和开窗函数排序聚和函数聚和开窗函数排序聚和函数 RANK跳跃排序 RDD、DF、DS三者之间的转化转换成RDD .rdd 转换成DF .toDF() 转换成DS RDD->DS .toDS()...

Spark Sql之dropDuplicates去重

南风知我意

03-03

1979

Spark Sql之dropDuplicates去重

spark sql去重简化方法

zlhblogs的博客

04-18

912

此外，dropDuplicates方法会保留第一次出现的记录而删除后续出现的记录，如果需要保留最后一次出现的记录，可以先使用orderBy方法对指定列进行排序，再使用dropDuplicates方法。假设有一个dataset叫my_table，将他注册成临时表my_table，其中包含id、update_time和其他字段，如果使用Spark SQL语句根据id去重并保留update_time最新的一条数据：代码如下。这样，就可以根据id去重并保留update_time最新的一条数据了。

SparkSQL练习题-DF读取.log文件，算子聚合去重开窗TOPN

qq_31412425的博客

06-15

138

【代码】SparkSQL练习题-DF读取.log文件，算子聚合去重开窗TOPN。

一篇文章教会你如何自定义SparkSQL函数和开窗函数

Mr_Yang888的博客

04-29

662

前言大家好，我是DJ丶小哪吒，我又来跟你们分享知识了。小编是一名软件工程系大数据应用开发专业大二的学生，对软件开发有着浓厚的兴趣。喜欢与人分享知识。做博客的目的就是为了能与他人知识共享。最近小编也在学习spark,对课堂上的内容做了一些总结。来与大家分享。由于水平有限。博客中难免会有一些错误。如有纰漏之处，欢迎大家在留言区指正。小编也会及时改正。 DJ丶小哪吒又来与各位分享知识了。...

spark海量数据去重策略

abc50319的专栏

05-17

9544

1.目标：尽可能在有限资源的情况下，利用尽量少的资源来达到更高效的效果。今天就给大家分享一个在DDT首页概览实时性能优化算法 – 海量数据高效去重算法。2.常规方法：采用spark sql方式去重3.创新方法：采用spark的分区排序去重算子去重算法。性能大幅度提升，从原来5min左右下降到30s以内（数据量10亿左右）采用spark sql方式和spark 算子分区排序去重算法对比：4.实验对比...

Spark入门：UDAF自定义聚合函数解析

"这篇资料主要介绍了UDAF自定义聚合函数在Spark中的应用，以及Spark的基础知识，包括其历史、特点、运行模式、安装、任务提交、工作原理、RDD特性和Spark开发入门等内容。资料适用于Spark学习者和大数据分析人员，...