SPARK里RDD中一行数据映射多行,多行数据合并一行行为总结

这些天处理spark任务时,遇到的困惑,我们通常map或forea处理RDD或DF时,如何在RDD中每一行处理的过程中将一行的数据按照需求分裂成多行?又如何将RDD中多行(m)完全平行的数据相同字段不变、不同字段合并成一段,从而形成n行数据(n<<m)?

1. 首先对于将多行缩减一行的需求我们可以通过 flatMapValues字段实现该功能。

flatMapValues:同基本转换操作中的flatMap,只不过flatMapValues是针对[K,V]中的V值进行flatMap操作。

样例如下

val sqlContext = SparkSession.builder().master("local").getOrCreate().sqlContext;
val sparkContext = sqlContext.sparkContext
val a = sparkContext.parallelize(Array((Array("1","fruit"), "apple,banana,pear,jwb"), (Array("2","animal"), "pig,cat,dog,tiger")))
val b = a.flatMapValues(_.split(",")).map(ele=>{
  val num = ele._1(0)
  val name = ele._1(1)
  val cate = ele._2
  (num,name,cate)
})
import sqlContext.implicits._
b.toDF("num","name","cate").show()

结果如下,

2. 对于通过将RDD中多行中的某个不同的字段数据合并成一行,并保留该行的特征(即相同字段)问题可以通过,sql中concat_ws()键字实现。这里collect_set()中添加需要合并的字段,需要注意的是该字段必须必须为String类型,且必须通过as 重命名。如下, 这样就可以将 appid,appuid,phone相同,而 callphoneArray不同的字段行合并。

"select appid,appuid,phone,concat_ws(';',collect_set(callPhoneArray)) as callPhoneArrays" +
  " from sortMonthTmpTable group by appid,appuid,phone "

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值