Spark | 分组排序

最新推荐文章于 2022-08-25 17:41:02 发布

点滴笔记

最新推荐文章于 2022-08-25 17:41:02 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： Spark 分组排序

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sampson_Hugo/article/details/103390592

本文探讨了在Spark中处理分组排序的问题，推荐使用DataFrame和aggregateByKey()方法。相较于groupByKey()，aggregateByKey()通过map-side预聚合减少shuffle操作，提高效率。文章详细解释了aggregateByKey()的参数含义及其作用，指出它如何通过初始化值、映射函数和规约操作实现高效的数据聚合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

记录下Spark分组排序时遇到的问题，需求问题如下：

当前有HDFS文件数据内容为：

(字段顺序为手机号-phone、用户ID-userId、线路-line、时间戳-clientTimestamp)，然后读取HDFS文件内容生成rdd,其中rdd的格式为( (phone,userId,line))

130xxxxxxxx&1980098385910287364&1004&1568528894
130xxxxxxxx&2233727976012209153&1005&1568555149
130xxxxxxxx&2320761066814396420&1002&1568515662
130xxxxxxxx&1956824763490556928&1005&1568538553
130xxxxxxxx&2255034634315076610&1001&1568528871

1、使用Spark DataFrame完成分组排序(推荐)

val userLineDF = rdd.map( x=>{((x._2,x._3),1)}).reduceByKey(_+_).map(x=>(x._1._1,x._1._2,x._2)).toDF("userId","line","rideCount")

val dfTop1 = userLineDF.withColumn("rank",row_number().over(Window.partitionBy("userId").orderBy(desc("rideCount")))).where("rank=1").select("userId","line").rdd.map(x=>{
  val v = x.getString(1)

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄11年

80
原创

42
点赞

159
收藏

13
粉丝

关注

私信

热门文章

分类专栏

Hadoop 3篇
Linux 13篇
Spark 20篇
DW 1篇
Kafka 18篇
Flink 3篇
Zookeeper 1篇
Hive 2篇
Python 5篇
HBase 6篇
Flume 1篇
Java 18篇

展开全部收起

上一篇：: Spark | 调度器&调度池&调度策略

下一篇：: Spark Streaming | 连接Kafka的两种方式

最新评论

Spark | Stage进度条展示(showConsoleProgress)
a17824: 请问作者是在哪里看到关于jupyter进度条的解释的
Kafka | Kafka中如何实现死信队列&重试队列
qq_43301530: 你看看你的标题和你写的内容对的上吗，看你写的东西整个人都是懵逼的
Kafka | Kafka中如何实现死信队列&重试队列
点滴笔记: 尴尬，着实未明白捕获异常中提交消费事务是指什么？如果消费kafka队列中消息解析失败导致异常，将该失败消息写入新的特殊队列以备后续重试消费再次写入DB库中，还是直接将解析失败的消息当做脏数据，捕获异常，写入到DB库中。按照我的浅解，脏数据场景下，消费异常脏数据后，应该记录当前脏数据且提交脏数据事务消费记录。如果从kafka消费事务角度看，其它消费者仍然可能重复消费并解析失败。不管是跨分区或者单分区消费的话。当然，脏数据从生产端点开始是如何产生的，这个就得另论了。
Kafka | Kafka中如何实现死信队列&重试队列
坏蛋damn: 写得非常好，有自己的思考，学RocketMQ发现有死信，回过头来对比kafka，很好的文章。我想问下楼主，如果kafka有一条脏消息由于json解析失败，导致消费者始终都不会提交，那么这条消息永远在队列前面，后面的消息消费不了，这样在业务代码中消费者需要在异常捕获中提交消费事务吗？
Hive | DISTINCT on different columns not supported with skew in data
圆周率的后六位: 是呢，在工作中我也遇到过这个问题。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。