spark客户端下
url只写到目标文件夹。对于数据的统计。只对新创建的文件的内容进行操作。
本代码为统计文件的单词数量
import org.apache.spark.streaming._
val ssc = new StreamingContext(sc, Seconds(20))
val lines = ssc.textFileStream("file:opt/rh/data/student")
val words = lines.flatMap(_.split("\t"))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()