SparkStreaming读取Hdfs文件完成wordCount

最新推荐文章于 2022-05-24 11:15:21 发布

鸭梨山大哎

最新推荐文章于 2022-05-24 11:15:21 发布

阅读量306

点赞数

分类专栏： spark 文章标签： textFileStream spark

本文链接：https://blog.csdn.net/u010711495/article/details/110700777

版权

spark 专栏收录该内容

121 篇文章 8 订阅

订阅专栏

首先完成逻辑代码如下

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{Seconds, StreamingContext}

object ReadHdfsFileDemo extends App {
  private val conf = new SparkConf().setAppName("test").setMaster("local[*]")
  private val ssc = new StreamingContext(conf,Seconds(5))
  //写一个hdfs上的文件夹路径即可
  private val dstream: DStream[String] = ssc.textFileStream("hdfs://mypc01/sparkstream")
  private val value: DStream[(String, Int)] = dstream.flatMap((_.split(" "))).map((_, 1)).reduceByKey(_ + _)
  value.print()
  ssc.start()
  ssc.awaitTermination()
}

之后往hdfs中添加文件

 hdfs dfs -put b.txt /sparkstream

执行结果

(everything;they,1)
(enough,1)
(can,1)
(dream;go,1)
(heartaches.,1)
(dreams,1)
(want,6)

总结

用put命令往hdfs上上传文件
hdfs上的文件路径要写正确

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

鸭梨山大哎

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SparkStreaming读取Hdfs文件完成wordCount

首先完成逻辑代码如下import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.DStreamimport org.apache.spark.streaming.{Seconds, StreamingContext}object ReadHdfsFileDemo extends App { private val conf = new SparkConf().setAppName("test").setM
复制链接

扫一扫