Spark使用 collect_list 将多行合并成一行，用于保存非group by的字段的值

最新推荐文章于 2024-05-27 20:09:00 发布

qijingpei

最新推荐文章于 2024-05-27 20:09:00 发布

阅读量3.4k

点赞数 2

分类专栏： Spark 文章标签：大数据 Spark

原文链接：https://stackoverflow.com/questions/40285371/spark-union-dataframe-rows-into-one-row

版权

Spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

目标：

想对某几个字段group by，但聚合以后，还想保留不是group by字段里的字段的数据，此时可以将这些数据组合类似于Java等语言中的list也就是列表或者说是数组，然后将这个列表，新建一个字段来存储。这样，group by之后，想要的非group by字段里的数据，也能保存下来了。

步骤：

将多个列组成一个struct（非必须，一般用在要保存多个列的值时）
使用group by聚合时，将struct组合成list（必需的。通过collect_list实现）

val input: DataFrame = Seq(
  (1, "JAMES", "SMITH"),
  (2, "MARY", "BROWN"),
  (2, "DAVID", "WILLIAMS"),
  (1, "ROBERT", "DAVIS")
).toDF("id", "first_name", "last_name")

import org.apache.spark.sql.functions._
val result = input
  .withColumn("entity", struct($"first_name", $"last_name"))
  .groupBy("id").agg(collect_list($"entity"))

result.show(false)
// +---+--------------------------------+
// |id |entities                        |
// +---+--------------------------------+
// |1  |[[JAMES,SMITH], [ROBERT,DAVIS]] |
// |2  |[[MARY,BROWN], [DAVID,WILLIAMS]]|
// +---+--------------------------------+

result.printSchema()
// root
//  |-- id: integer (nullable = false)
//  |-- entities: array (nullable = true)
//  |    |-- element: struct (containsNull = true)
//  |    |    |-- first_name: string (nullable = true)
//  |    |    |-- last_name: string (nullable = true)

qijingpei

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark使用 collect_list 将多行合并成一行，用于保存非group by的字段的值

目标：想对某几个字段group by，但聚合以后，还想保留不是group by字段里的字段的数据，此时可以将这些数据组合类似于Java等语言中的list也就是列表或者说是数组，然后将这个列表，新建一个字段来存储。这样，group by之后，想要的非group by字段里的数据，也能保存下来了。步骤：将多个列组成一个struct（非必须，一般用在要保存多个列的值时）使用group by聚合时，将struct组合成list（必需的。通过collect_list实现）val input: DataF
复制链接

扫一扫

专栏目录