Spark Streaming fileStream基于文件的流计算

最新推荐文章于 2024-07-15 02:35:50 发布

upupfeng

最新推荐文章于 2024-07-15 02:35:50 发布

阅读量1.1k

点赞数

分类专栏： Spark 文章标签： fileStream Spark文件实时处理

本文链接：https://blog.csdn.net/ifenggege/article/details/108553361

版权

本文介绍了Spark Streaming的fileStream功能，用于实时处理HDFS中的新文件。通过API如fileStream、textFileStream和binaryRecordsStream创建数据流，并展示了相关示例。注意，fileStream依赖于文件修改时间而非创建时间，且目录下的文件应同类型。为了容错，可以使用checkpoint和滑动窗口机制。

摘要由CSDN通过智能技术生成

项目中需要每隔5分钟去处理hdfs中的新进来的文件，调研一下Spark Streaming的file source

Spark Streaming中实现了以文件为Source，监控对应目录中的文件的修改来生成流，通过FileInputDStream来实现。

API介绍

提供了fileStream和textFileStream和binaryRecordsStream来创建FileInputStream。

fileStream

fileStream有三种重载形式，都是直接传参数进去返回FileInputDStream

有以下参数&泛型：

参数名	含义
directory	要监听的目录，如`hdfs://192.168.168.200:9000/data/ds=*`
filter	过滤目录，是一个`Path => Boolean`的函数。如果需要保留，返回true
newFilesOnly	启动程序后，是否只读新进来的文件
K: ClassTag	HDFS文件的Key类型。如LongWritable
V: ClassTag	HDFS文件的Value类型。如Text
F <: NewInputFormat[K, V]: ClassTag	读取HDFS文件时的输入格式。如TextInputFormat

textFileStream

  def textFileStream(directory: String): DStream[String] = withNamedScope("text file stream") {
   
    fileStream[LongWritable, Text, TextInputFormat](directory).map(_._2.toString)
  }