SparkStreaming读取hdfs文件

package spark.SparkStreaming.file

import org.apache.spark.SparkContext
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Description:统计hdfs上指定目录中实时的文件中单词的次数(特点:实时的文件,不是历史的文件)<br/>
  */
object test extends App {
  //SparkSession
  val spark: SparkSession = SparkSession.builder()
    .appName(test.getClass.getSimpleName)
    .master("local[*]")
    .getOrCreate()

  val sc: SparkContext = spark.sparkContext


  val ssc: StreamingContext = new StreamingContext(sc, Seconds(2))


  //DStream,迭代计算,并显示内容
     ssc.textFileStream("hdfs://mini1:9000/spark-streaming/wc") //← hdfs上特定的资源目录
    .flatMap(_.split("\\s+"))
    .filter(_.nonEmpty)
    .map((_, 1))
    .print(100)

  //启动SparkStreaming应用
  ssc.start

  //等待结束(必须要添加)
  ssc.awaitTermination

}

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值