比如有原始数据
http://bigdata.bjut.edu.cn/thy
....等等类似的数据,最后为老师的名字,前面含有某个科目,求出某学科老师的点击量topn
方法一:思路,先对数据进行处理,获取我们需要的。组合成((学科,老师),1)的形式在进行聚合,然后按照学科进行分组,最后进行排序。
package com.thy.spark
import java.net.URL
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
object GroupFavTeacher1 {
def main(args: Array[String]): Unit = {
//val N = args(0).toInt
val conf = new SparkConf().setAppName("FavTeacher").setMaster("local[2]")
val sc: SparkContext = new SparkContext(conf)
val data: RDD[String] = sc.textFile("E:\\hdfs