废话不多说直接上代码
/**
* 初始化
*/
val conf = new SparkConf().setAppName("wordCount").setMaster("local[2]")
val sc = new SparkContext(conf)
val list = sc.makeRDD(List("Lisa Jennie Rosé Jisoo","Black Pink Jisoo Jennie Lisa Rosé"))
/**
* 这里和scala写差不多 都是先flatmap根据分隔符分开,再压平展开,然后生成元组,不过spark提供了reduceByKey,
* 方便了很多
*/
println(list.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).collect.toBuffer)
执行结果如下图