Spark SQL 案例: 分组排行榜

qq_57026298

已于 2022-06-18 09:25:45 修改

阅读量291

点赞数

文章标签： spark sql scala

于 2022-06-17 11:20:16 首次发布

本文链接：https://blog.csdn.net/qq_57026298/article/details/125329806

版权

本文通过一个案例展示了如何使用Spark SQL进行分组求TopN的操作。首先提出了在大数据领域中分组求TopN的需求，然后详细介绍了如何在Scala环境下创建Spark SQL项目，包括新建Maven项目、添加依赖、创建日志属性文件、创建分组排行榜单例对象等步骤。最终，通过本地运行程序并使用交互式操作查看了分组排行榜的结果。

摘要由CSDN通过智能技术生成

文章目录

一、提出任务
二、完成任务

一、提出任务

分组求TopN是大数据领域常见的需求，主要是根据数据的某一列进行分组，然后将分组后的每一组数据按照指定的列进行排序，最后取每一组的前N行数据。
在mysql数据库中创建数据表t_grade
执行查询
将成绩文件 - grades.txt上传到HDFS上/input目录

二、完成任务

（一）新建Maven项目

设置项目信息（项目名、保存位置、组编号、项目编号）
单击【Finish】按钮
将java目录改成scala目录

（二）添加相关依赖和构建插件

在pom.xml文件里添加依赖与Maven构建插件

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xs

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_57026298

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark SQL案例：分组排行榜

HTY_yysd的博客

06-16

677

分组求TopN是大数据领域常见的需求，主要是根据数据的某一列进行分组，然后将分组后的每一组数据按照指定的列进行排序，最后取每一组的前N行数据。有一组学生成绩数据同一个学生有多门成绩，现需要计算每个学生分数最高的前3个成绩，期望输出结果如下所示数据表执行查询预备工作：启动集群的HDFS与Spark 将成绩文件 - 上传到HDFS上目录设置项目信息（项目名、保存位置、组编号、项目编号）单击【Finish】按钮将目录改成目录在文件里添加依赖与Maven构建插件在资源文件夹里创建日志属性文件 - 在包里创建单例

Spark SQL案例：分组

m0_63797754的博客

06-19

904

Spark SQL 案例：分组

参与评论您还未登录，请先登录后发表或查看评论

python中函数的定义_python之函数定义

weixin_39728221的博客

11-22

375

首先利用print打印出---->佛祖镇楼print(" _ooOoo_ ")print(" o8888888o ")print(" 88 . 88 ")print(" (| -_...

SparkSQL中4个排序的区别

weixin_41008393的博客

01-28

1834

ORDER BY和SORT BY和DISTRIBUTE BY和CLUSTER BY的区别

Spark SQL案例：分组排行榜

CITTB的博客

06-17

599

积极

【Spark SQL案例：分组排行榜】

LZB_XM的博客

06-18

331

同一个学生有多门成绩，现需要计算每个学生分数最高的前3个成绩，期望输出结果如下所示：数据表执行查询预备工作：启动集群的HDFS与Spark 将成绩文件 - 上传到HDFS上目录设置项目信息（项目名、保存位置、组编号、项目编号）单击【Finish】按钮将目录改成目录...

Spark RDD案例：分组排行榜

m0_65838036的博客

06-16

154

Spark RDD案例：分组排行榜

Spark RDD编程

qq_42260493的博客

11-18

624

对于内连接，对于给定的两个输入数据集(K,V1)和(K,V2)，只有在两个数据集中都存在的key才会被输出，最终得到一个(K,(V1,V2))类型的数据集。将每个元素传递到函数func中，并将结果 “拍扁” 返回为一个新的数据集（新RDD的元素个数与原本RDD的元素个数无必然联系）将rdd持久化到磁盘，表示将RDD作为反序列化的对象存储在JVM中，如果内存不足，超出的分区将会被存放在硬盘上。将每个元素传递到函数func中，并将结果返回为一个新的数据集（新RDD的元素个数等于原本RDD的元素个数）

[含文档+PPT+源码等]精品大数据项目-python基于Spark实现的新闻推荐系统的设计与实现

weixin_41915110的博客

11-15

648

数据库管理工具：phpstudy/Navicat或者phpstudy/sqlyog后台管理系统涉及技术：后台使用框架：Django前端使用技术：Vue,HTML5,CSS3、JavaScript等数据库：Mysql数据库本系统功能完整，适合作为计算机项目设计参考以及学习、就业面试、商用皆可。下面是资料信息截图：功能介绍：面是系统运行起来后的一些截图：

数据仓库数据湖湖仓一体解决方案

数据矿工-数据化运营博客

11-18

248

数据仓库与数据湖是现代数据管理的两大核心概念。数据仓库是结构化的数据存储仓库，用于支持企业的决策分析，其数据经过清洗、整合，以固定的模式存储，适合复杂查询。数据湖则是一个集中存储大量原始数据的存储库，不强调数据结构，更注重数据的原始性和可扩展性。湖仓一体化是近年来兴起的理念，旨在将数据湖的灵活性与数据仓库的分析能力结合，实现数据的统一管理和高效分析。它融合了数据湖的原始数据存储能力和数据仓库的数据处理、分析优势，为企业提供了更全面的数据管理解决方案。

Spark RDD的groupBy算子和groupBykey算子的对比

z1941563559的博客

11-14

783

groupBy可以基于任意的分组逻辑进行分组，适用于更广泛的场景。返回的是，可以应用于任何RDD。性能上较为灵活，适合不同类型的数据。groupByKey只能用于PairRDD（键值对RDD），且只能基于键来分组。在处理大规模数据时，如果每个键的值非常多，可能会导致性能瓶颈。推荐用于键值对已经按键进行分组的情况，不需要额外的分组逻辑。在Spark中，groupBy和groupByKey都是用于分组数据的算子，但它们的行为和适用场景有所不同，特别是在性能上。

Spark_写ORALCE：ORA-01426 numeric overflow 问题解决

Matrix70的博客

11-18

189

数据入到一半，每次都报错ORA-01426 numeric overflow，具体呢，也不告诉你哪个字段报的问题。本人的程序字段很多，领导们就是要看这个除了问题的数据是什么样的，so,尝试了好几次入不进去。字段是number(16),然后改为number（32）,直至最后改到最大值都没用，最后不得不改为CLOB类型也就是text才入进入全部数据。是这样的，20241118，我spark程序写Oracle时候，关联完HBase数据后，在写入ORACLE中，遇到了这个bug，

分布式(Hadoop\Spark)

zzzzzwbetter的博客

11-15

806

Hadoop 是一个开源的分布式计算框架，主要用于处理大规模数据集。它提供了一个可靠、可扩展且高效的存储和处理平台，特别适用于需要存储和处理海量数据的应用。Hadoop 采用分布式存储和计算模型，能够在成千上万的节点上处理数据，支持大数据的存储、处理和分析。HDFS（Hadoop Distributed File System）是一个分布式文件系统，是 Hadoop 生态系统中的核心组成部分，用于分布式存储和管理大规模数据。它设计用于在廉价硬件上存储超大文件，同时提供高吞吐量的数据访问能力。

性能超越Spark 13.3 倍,比某MPP整体快数十秒 | 多项性能指标数倍于主流开源引擎 | 云器科技发布性能测试报告

最新发布

锋哥聊DORIS数仓

11-18

🏅增量计算：云器Lakehouse支持秒级、分钟级、小时级的数据新鲜度调节。相较于Flink常驻任务，云器Lakehouse可通过调整时效性平衡资源成本，在近实时场景下可节省10倍~1000倍的成本。🏅实时分析：在基于宽表的实时分析场景下，云器Lakehouse相较Clickhouse表现出1.48倍性能提升。🏅离线批处理：在复杂批处理任务中，云器Lakehouse相较Spark表现出13.31倍性能提升。🏅即席查询：在交互式分析场景下，云器Lakehouse相较Trino表现出9.84倍性能提升。

Spark 读取 HDFS 文件时 RDD 分区数的确定原理与源码分析

z1941563559的博客

11-14

671

Spark 通过goalSize和blockSize来平衡分区数量与块大小。分区数会随着文件大小、块大小、期望分区数等参数变化。分区数设定不合理会影响性能，例如分区数过多会导致任务调度开销增加，分区数过少则可能导致计算资源未充分利用。

Spark读MySQL数据rdd分区数受什么影响，读parquet、hdfs、hive、Doris、Kafka呢？

z1941563559的博客

11-14

1176

数据源影响因素配置参数MySQL、查询条件lowerBoundupperBoundParquet文件大小、文件数量、HDFSHDFS文件块大小、文件数量、Hive分区表、Doris查询条件、分区策略、KafkaKafka分区数、因此，读取数据源时的RDD分区数会受到数据源自身的存储方式、配置参数以及查询条件的影响。合理的分区数可以提高Spark任务的并行度，优化性能。

spark.default.parallelism 在什么时候起作用，与spark.sql.shuffle.partitions有什么异同点？

z1941563559的博客

11-14

746

异同主要影响 RDD 的初始并行度，而则专门控制 Spark SQL 中的 Shuffle 分区数。前者在非 SQL 的 RDD 操作中起作用，后者则仅对 SQL 或 DataFrame API 中的 Shuffle 操作生效。配置建议如果以 RDD 为主，则可以根据集群大小和任务负载调整。如果以 SQL 和 DataFrame 操作为主，特别是需要进行大量 Shuffle 的场景，可以适当调整来优化性能（如减少分区数以降低小任务开销，或增加分区数以加快数据处理速度）。

使用python-Spark使用的场景案例具体代码分析

IT晓白

11-14

613

• 日志分析：互联网公司每天会产生海量的服务器日志，如访问日志、应用程序日志等。Spark可以高效地读取这些日志文件，对数据进行清洗（例如去除无效记录、解析日志格式）、转换（例如提取关键信息如用户ID、访问时间、访问页面等）和分析（例如统计页面访问量、用户访问路径等）。• 数据仓库ETL（Extract，Transform，Load）：在构建数据仓库时，需要从各种数据源（如关系型数据库、文件系统等）提取数据，进行清洗、转换和加载到数据仓库中。

Spark SQL案例：1998年航班数据的繁忙时段分析

在本篇关于Spark SQL案例分析的文章中，我们将深入探讨如何利用Spark SQL处理1998年航班数据，以解决实际问题并提取有用的信息。首先，我们从数据集的介绍开始，选取的是一个包含航班信息的CSV文件，该数据集记录了...