SparkStreaming--输入源（本地文件）

最新推荐文章于 2023-03-21 14:36:10 发布

wangfutai91

最新推荐文章于 2023-03-21 14:36:10 发布

阅读量1k

点赞数

分类专栏： SparkStreaming

本文链接：https://blog.csdn.net/suojie123/article/details/88197202

版权

SparkStreaming 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

//输入源
object WordCountHDFSSource {
  def main(args: Array[String]): Unit = {
    System.setProperty("hadoop.home.dir", "E:\\software\\bigdate\\hadoop-2.6.0-cdh5.15.0\\hadoop-2.6.0-cdh5.15.0")
    val conf = new SparkConf();
    conf.setMaster("local[2]") //一个线程用于读数据，一个用于处理数据
    conf.setAppName("WordCountStreaming")
    val sc = new SparkContext(conf);
    val batch=5
    val streamingContext = new StreamingContext(sc, Seconds(batch))
    //监听本地目录
    val sourceDS=streamingContext.textFileStream("E:\\sparkdata")
    sourceDS.flatMap(
      line=>{
        line.split(" ")
      })
      .map((_,1))
      .reduceByKey(_+_)
      .print()
    streamingContext.start()
    streamingContext.awaitTermination()
    }
  }