如下
package com.my.scala
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Durations, StreamingContext}
/**
*
* 使用开窗函数实现spark streaming,版本统计一段时间内前三的热搜词汇
*
* 测试结果:测试成功
* 步骤: 先开启hadoop集群,start-all.sh
* 再在h15上启动端口:nc -lk 8888
* 再输入数据:如---》"ds sdf sdfa wfasd sdf",一定要以空格分开
* 启动本程序
* 查看控制台是否正常
*
*/
object WindowBasedTopWord {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("WindowBasedTopWord").setMaster("local[2]")
val ssc = new StreamingContext(conf,Durations.seconds(5)) //这里的5秒是指切分RDD的间隔
ssc.checkpoint("hdfs://h15:8020/wordcount_check