spark之explode()方法--- 行转列

最新推荐文章于 2025-03-15 20:00:38 发布

卢子墨

最新推荐文章于 2025-03-15 20:00:38 发布

阅读量1.8w

点赞数 5

分类专栏： Java Spark原理、实战、总结文章标签： explode spark

原文链接：https://blog.csdn.net/macanv/article/details/78297150

版权

56 篇文章 ¥39.90 ¥99.00

订阅专栏

11 篇文章

订阅专栏

本文介绍如何利用Spark DataFrame的explode方法将List和Map数据转换为多行。通过实例展示了从List及Map类型列中创建新列的过程，并提供了对应的Java代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在stackoverflow 中的问题是这样的：
https://stackoverflow.com/questions/37391241/how-to-explode-columns/37392793#37392793

加入我们有这种数据：

我们希望得到这种格式的:

那么使用java如何操作呢？一种是使用RDD啊什么的一个一个的转，但是强大的spark用提供了一个强大的explode方法
首先看下explode官方给的文档吧~~

è¿éåå¾çæè¿°

可以知道 explode方法可以从规定的Array或者Map中使用每一个元素创建一列

df = df.withColumn("entityPair", functions.explode(functions.col("entityList")));

这里explode中传入的是需要进行展开的列名，withColun中的第一个参数是展开后的新列名。
其中entityList必须是一个List。例如上面给的数据例子，在爱好哪一行，数据类型应该是这样的

List<String> : {"羽毛球","篮球"}

文档中还说了可以将map数据展开，那么如何进行呢？
假设我们有这样一个map：

我们需要将map中所有的key和value展开，所有的key为一列，所有的value为一列
得到如下结构：

下面给出java 方法：

df = df.select(functions.explode(functions.col("data"))).toDF("key", "value");

可以看到，这里和List有一个不同的地方时需要在explode后接一个toDF操作，是因为map进行展开操作后自然会得到两列，我们需要将其转化为DataFrame格式的两列，列名可以自己指定。
————————————————