学习Spark有段时间了,部署的部分先不写了,以后有时间会补上,现在开始记录一下使用过程。
先看一下经典的word count例子
val sc = new SparkContext(conf) val f = sc.textFile("hdfs://192.168.1.12:9000/users/spark/README.txt", 2) val r = f.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) r.foreach(println)
如此可以得到的每个单词出现的次数。下面就会出现另一个问题了,我想看出现最多的次数的单词,或者说,我先看按照出现次数排序的单词趋势。
查看RDD的API,看到有sortByKey这个函数。于是,我们可以做如下的操作来满足我们的需求
val r = f.flatMap(line => line.split(" ")