Spark Streaming--1 文件默认数据源

最新推荐文章于 2022-06-20 11:23:11 发布

江南阁

最新推荐文章于 2022-06-20 11:23:11 发布

阅读量221

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_36235275/article/details/82501521

版权

Spark 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

文件数据流：能够读取所有HDFS API兼容的文件系统文件，通过fileStream方法进行读取
Spark Streaming 将会监控 dataDirectory 目录并不断处理移动进来的文件，记住目前不支持嵌套目录。

文件需要有相同的数据格式
文件进入 dataDirectory的方式需要通过移动或者重命名来实现。
一旦文件移动进目录，则不能再修改，即便修改了也不会读取新数据。
如果文件比较简单，则可以使用 streamingContext.textFileStream(dataDirectory)方法来读取文件。文件流不需要接收器，不需要单独分配CPU核。

## 导入相应的jar包
scala> import org.apache.spark.streaming._
## 创建StreamingContext操作对象
scala> val ssc = new StreamingContext(sc,Seconds(5))
scala> val lines = ssc.textFileStream("hdfs://master:9000/spark/data")
scala> val wordCount = lines.flatMap(_.split("\t")).map(x=>(x,1)).reduceByKey(_+_)
scala> wordCount.print
scala> ssc.start

[root@master ~]# hadoop fs -rm -r ./data1 /spark/data1 //上传数据至该目录

江南阁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark Streaming--1 文件默认数据源

文件数据流：能够读取所有HDFS API兼容的文件系统文件，通过fileStream方法进行读取 Spark Streaming 将会监控 dataDirectory 目录并不断处理移动进来的文件，记住目前不支持嵌套目录。文件需要有相同的数据格式文件进入 dataDirectory的方式需要通过移动或者重命名来实现。一旦文件移动进目录，则不能再修改，即便修改了也不会读取...
复制链接

扫一扫