Flink自定义Source实现对HDFS文件进行tail -f操作

最新推荐文章于 2024-05-06 10:00:32 发布

upupfeng

最新推荐文章于 2024-05-06 10:00:32 发布

阅读量2.4k

点赞数 4

本文链接：https://blog.csdn.net/ifenggege/article/details/113797138

版权

背景

需要读取HDFS上变化的日志文件，对每一行进行处理，就是类似于Linux中tail -f实现的功能。

看了看好像Spark和Flink都没有类似的支持，于是就用Flink自定义了Source实现了这个功能。

实现思路

维持一个当前读取位置的偏移量，然后每隔几秒去看下文件的大小是否大于当前偏移量。如果最新文件大小大于当前偏移量就读取数据，并将当前偏移量设置为最新的文件大小；反之，不做任何操作。

以下的代码，还没有把当前读取位置存储到状态中，如果重启会重头开始读。

实现代码

自定义Source

package com.upupfeng.source;

import org.apache.flink.configuration.Configuration;
import org.apache.flink.core.fs.FSDataInputStream;
import org.apache.flink.core.fs.FileStatus;
import org.apache.flink.core.fs.FileSystem;
import org.apache.flink.core.fs.Path;
import org.apache.flink.streaming.api.functions.source.RichSourceFunction;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;

/**
 * 自定义Source实现对HDFS上的文件进行"tail -f"的类似操作
 * @author mawf
 */
public class TailHdfsFileSource extends RichSourceFunction<String>

最低0.47元/天解锁文章

upupfeng

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
Flink自定义Source实现对HDFS文件进行tail -f操作

背景需要读取HDFS上变化的日志文件，对每一行进行处理，就是类似于Linux中tail -f实现的功能。看了看好像Spark和Flink都没有类似的支持，于是就用Flink自定义了Source实现了这个功能。实现思路维持一个当前读取位置的偏移量，然后每隔几秒去看下文件的大小是否大于当前偏移量。如果最新文件大小大于当前偏移量就读取数据，并将当前偏移量设置为最新的文件大小；反之，不做任何操作。以下的代码，还没有把当前读取位置存储到状态中，如果重启会重头开始读。实现代码自定义Sourcepacka
复制链接

扫一扫

专栏目录