SPARK里RDD中一行数据映射多行，多行数据合并一行行为总结

最新推荐文章于 2024-05-15 00:49:13 发布

明星海棠果

最新推荐文章于 2024-05-15 00:49:13 发布

阅读量1.4w

点赞数 4

分类专栏： spark 文章标签：大数据 spark

本文链接：https://blog.csdn.net/u011271476/article/details/79559871

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这些天处理spark任务时，遇到的困惑，我们通常map或forea处理RDD或DF时，如何在RDD中每一行处理的过程中将一行的数据按照需求分裂成多行？又如何将RDD中多行（m）完全平行的数据相同字段不变、不同字段合并成一段，从而形成n行数据（n<<m）？

1. 首先对于将多行缩减一行的需求我们可以通过 flatMapValues字段实现该功能。

flatMapValues：同基本转换操作中的flatMap，只不过flatMapValues是针对[K,V]中的V值进行flatMap操作。

样例如下

val sqlContext = SparkSession.builder().master("local").getOrCreate().sqlContext;
val sparkContext = sqlContext.sparkContext
val a = sparkContext.parallelize(Array((Array("1","fruit"), "apple,banana,pear,jwb"), (Array("2","animal"), "pig,cat,dog,tiger")))
val b = a.flatMapValues(_.split(",")).map(ele=>{
  val num = ele._1(0)
  val name = ele._1(1)
  val cate = ele._2
  (num,name,cate)
})
import sqlContext.implicits._
b.toDF("num","name","cate").show()

结果如下，

2. 对于通过将RDD中多行中的某个不同的字段数据合并成一行，并保留该行的特征（即相同字段）问题可以通过，sql中concat_ws（）键字实现。这里collect_set()中添加需要合并的字段，需要注意的是该字段必须必须为String类型，且必须通过as 重命名。如下，这样就可以将 appid,appuid,phone相同，而 callphoneArray不同的字段行合并。

"select appid,appuid,phone,concat_ws(';',collect_set(callPhoneArray)) as callPhoneArrays" +
  " from sortMonthTmpTable group by appid,appuid,phone "

明星海棠果

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
SPARK里RDD中一行数据映射多行，多行数据合并一行行为总结

这些天处理spark任务时，遇到的困惑，我们通常map或forea处理RDD或DF时，如何在RDD中每一行处理的过程中将一行的数据按照需求分裂成多行？又如何将RDD中多行（m）完全平行的数据相同字段不变、不同字段合并成一段，从而形成n行数据（n&lt;&lt;m）？1. 首先对于将多行缩减一行的需求我们可以通过 flatMapValues字段实现该功能。flatMapValues：同基本转换操作中...
复制链接

扫一扫

专栏目录