networkstream读取时获取传入的长度_flink多目录路径读取数据源

在使用 flink 读取数据源时,经常会遇到从多个目录读取数据源的问题,例如像下面的 hdfs 路径:

b855a4f8fcd71f6b2a2f8a19b29b0679.png

如上数据为小时级切割数据,文件夹命名是以:年-月-日-小时 格式,但如果想计算某一天的全部数据,如:2019-11-19 ,那怎么才能让 flink 自动读取所有以 2019-11-19 开头的目录文件呢?

如果是使用 spark 开发,其实非常容易,直接传入模糊匹配的路径即可:

spark.read.text("/data/2019-11-19*/*")

但是在 flink 中却没有提供类似的方法,因此需要我们自己来扩展:

// 外层父级目录String dir = "hdfs://namenode.yuankan.co/data";Path path = new Path(dir);Configuration configuration = new Configuration();// 设置递归获取文件configuration.setBoolean("recursive.file.enumeration", true);TextInputFormat textInputFormat = new TextInputFormat(path);textInputFormat.supportsMultiPaths();textInputFormat.configure(configuration);textInputFormat.setFilesFilter(new FilePathFilter() {@Overridepublic boolean filterPath(Path filePath) {// 过滤想要的路径return  !filePath.toString().contains("2019-11-19");}});env.readFile(textInputFormat,dir)

整体思路也非常简单,利用内置的 readFile 方法,读取外层目录文件夹,过滤筛选出需要使用的数据源即可。

作者:猿谋人

博客:https://yuankan.co

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值