1. 首先对于将多行缩减一行的需求我们可以通过 flatMapValues字段实现该功能。
flatMapValues:同基本转换操作中的flatMap,只不过flatMapValues是针对[K,V]中的V值进行flatMap操作。
样例如下
val sqlContext = SparkSession.builder().master("local").getOrCreate().sqlContext;
val sparkContext = sqlContext.sparkContext
val a = sparkContext.parallelize(Array((Array("1","fruit"), "apple,banana,pear,jwb"), (Array("2","animal"), "pig,cat,dog,tiger")))
val b = a.flatMapValues(_.split(",")).map(ele=>{
val num = ele._1(0)
val name = ele._1(1)
val cate = ele._2
(num,name,cate)
})
import sqlContext.implicits._
b.toDF("num","name","cate").show()
结果如下,
2. 对于通过将RDD中多行中的某个不同的字段数据合并成一行,并保留该行的特征(即相同字段)问题可以通过,sql中concat_ws()键字实现。这里collect_set()中添加需要合并的字段,需要注意的是该字段必须必须为String类型,且必须通过as 重命名。如下, 这样就可以将 appid,appuid,phone相同,而 callphoneArray不同的字段行合并。
val groupDF = spark.sql("select appid,appuid,phone,concat_ws(';',collect_set(callPhoneArray)) as callPhoneArrays" +
" from sortMonthTmpTable group by appid,appuid,phone ")