sparkstreaming本地读取数据获取不到内容

最新推荐文章于 2023-02-13 22:26:52 发布

置顶

myanddream

最新推荐文章于 2023-02-13 22:26:52 发布

阅读量1.4k

点赞数 2

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/myanddream/article/details/106191308

版权

本文探讨了在SparkStreaming中遇到的本地数据读取问题，原因在于本地文件系统的操作与HDFS的流式操作不同。为解决此问题，文章提供了相应的文件写入代码示例，确保数据能被SparkStreaming正确捕获。

摘要由CSDN通过智能技术生成

代码

sparkstreaming本地读取数据代码块

package com.mydemo

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{Seconds, StreamingContext}

object strDemo {

  def main(args: Array[String]): Unit = {

    //1.初始化Spark配置信息
    val sparkConf = new SparkConf().setMaster("local[*]")
      .setAppName("StreamWordCount")

    //2.初始化SparkStreamingContext，间隔时间
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    //3.监控文件夹
    val dirStream = ssc.textFileStream("file:///C:/User/IdeaProjects/spark01/")

    //4.将数据进行切分
    val wordStreams: DStream[String] = dirStream.flatMap(_.split(","))

    //5.将切割后的数据转换为(数据，1)的二元组格式
    val wordAndOneStreams = wordStreams.map((_, 1))

    //6.通过二元组中相同key的数据求和
    val wordAndCountStreams = wordAndOneStreams.reduceByKey(_ + _)

    //7.打印
    wordAndCountStreams.print()

    /