SparkStreaming无法读取hdfs文件

最新推荐文章于 2023-03-20 14:11:36 发布

再努力试试

最新推荐文章于 2023-03-20 14:11:36 发布

阅读量575

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_35743849/article/details/107783660

版权

大数据专栏收录该内容

12 篇文章 0 订阅

订阅专栏

代码如下：

package com.spark

import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object SparkStreamHDFS {

  def main(args: Array[String]): Unit = {
    val sparkConf =new SparkConf().setMaster("local[*]").setAppName("SparkStream").set("spark.testing.memory", "2147480000")
    val sc= new SparkContext(sparkConf)
    val ssc = new StreamingContext(sc,Seconds(10))

    val fileStreamLine: DStream[String] = ssc.textFileStream("hdfs://****/user/hive/warehouse/dsc_ods.db/spark_data")

    val dStream: DStream[String] = fileStreamLine.flatMap(line => line.split("\\| "))
    val map: DStream[(String, Int)] = dStream.map((_,1))
    val key: DStream[(String, Int)] = map.reduceByKey(_+_)
    key.print()

    ssc.start()
    ssc.awaitTermination()
  }
}