/**
* 统计排名前 3 的省份共同拥有的农产品类型
*/
val num=0
val numTest=sc.accumulator(num) //创建累加器
val lines=sc.textFile("file:///home/tg/datas/product.txt")
val result=lines.map(m=>m.split("\t"))
.filter(m=>m.length==6 && m(0)!=null && m(4)!=null)
.map(m=>{
val province=m(4).trim
val name=m(0).trim
province+"-"+name //省份-农产品
}).distinct() //数据需要去重
.map(m=>{
val info=m.split("-")
(info(0),info(1)) //(省份,农产品)
}).groupByKey()
.map(m=>{
val prov=m._1
val names=m._2
val counts=names.toArray.length
(counts,prov+"-"+names)
* 统计排名前 3 的省份共同拥有的农产品类型
*/
val num=0
val numTest=sc.accumulator(num) //创建累加器
val lines=sc.textFile("file:///home/tg/datas/product.txt")
val result=lines.map(m=>m.split("\t"))
.filter(m=>m.length==6 && m(0)!=null && m(4)!=null)
.map(m=>{
val province=m(4).trim
val name=m(0).trim
province+"-"+name //省份-农产品
}).distinct() //数据需要去重
.map(m=>{
val info=m.split("-")
(info(0),info(1)) //(省份,农产品)
}).groupByKey()
.map(m=>{
val prov=m._1
val names=m._2
val counts=names.toArray.length
(counts,prov+"-"+names)