SparkSQL 高级篇(一) 聚合操作

最新推荐文章于 2024-08-05 22:50:20 发布

the_conquer_zzy

最新推荐文章于 2024-08-05 22:50:20 发布

阅读量2k

点赞数

分类专栏： spark 大数据文章标签： spark

本文链接：https://blog.csdn.net/the_conquer_zzy/article/details/105885536

版权

本文介绍了SparkSQL中的聚合操作，包括基本聚合函数如count、min、max、sum等，以及分组聚合函数的应用，如countDistinct、approx_count_distinct。文章通过示例展示了如何使用这些函数进行数据统计和分析，特别提到了Pivot操作，用于将行转换为列，便于数据分析和报告制作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SparkSQL 高级篇(一) 聚合操作

聚合操作

聚合操作是大数据分析过程中一个常用的操作，用来分析汇总数据，或者生成汇总报告。
聚合通常需要对整个数据集或一个或多个列进行某种形式的分组，然后对每个组应用聚合函数，如求和、计数或求平均值。Spark提供了许多常用的聚合函数。这里介绍下基本的聚合函数和分组聚合操作函数。

首先创建一个用于demo的DataFrame

val flight_summary = spark.read.format("csv").option("header","true")
.option("inferSchema","true").load("flight-summary.csv")

flight_summary.count()
Long = 4693

这里的count()是DataFrame的一个Action。
而我们这次介绍的聚合函数中的count()是一个function，所有的聚合函数都是延迟计算的函数

基本聚合函数

count(col)
countDistinct(col)
approx_count_distinct(col)
min(col)
max(col)
sum(col)
sumDistinct(col)
avg(col)
skewness(col)
kurtosis(col)
variance(col)
stddev(col)
collect_list(col)
collect_set(col)

首先创建一个DataFrame

count(col)函数

count(col)函数用于统计一个分组中的项目的数量。比如统计数据中某些列的数量
例子：

flight_summary.select(count("origin_airport"), count("dest_airport").as("dest_count")).show

输出为：

+----------------------+-----------+
| count(origin_airport)| dest_count|
+----------------------+-----------+
|                  4693|       4693|
+----------------------+-----------+

为了易读性这里用.as对结果列重命名，并使用show查看结果

然后执行查询

badMoviesDF.select(count("actor_name"), count("movie_title"), count("produced_year"), count("*")).show

结果如下：

±-----------------±------------------±--------------------±--------+
| count(actor_name)| count(movie_title)| count(produced_year)| count(1)|
±-----------------±------------------±--------------------±--------+
| 2| 3| 4| 4|
±-----------------±------------------±--------------------±--------+
可以看到count(col) 不会包含列值为null的那些行。