Flink:recursive.file.enumeration读hdfs超时无法提submit job问题

半壁江山009

于 2019-03-18 20:38:09 发布

阅读量542

点赞数 3

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_31963719/article/details/88649443

版权

大数据专栏收录该内容

13 篇文章 0 订阅

订阅专栏

背景：使用flink批作业读取存在hdfs上的日志需要迭代读取目录下所有文件的内容
使用的方法：


        Configuration conf = new Configuration();
        conf.setBoolean("recursive.file.enumeration", true);
        DataSet<String> in = env.readTextFile(urlWithDate).withParameters(conf);

但是由于日志数量比较大出现akka链接超时问题
无法正常提交job
相关社区issue:
https://issues.apache.org/jira/browse/FLINK-3964
后来改用如下方法读取日志，成功解决：

        FileInputFormat fileInputFormat = new TextInputFormat(new Path(urlWithDate));
        fileInputFormat.setNestedFileEnumeration(true);
        DataSet<String> dataSet = env.readFile(fileInputFormat, urlWithDate);

半壁江山009

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Flink:recursive.file.enumeration读hdfs超时无法提submit job问题

背景：使用flink批作业读取存在hdfs上的日志需要迭代读取目录下所有文件的内容使用的方法： Configuration conf = new Configuration(); conf.setBoolean("recursive.file.enumeration", true); DataSet<String> in = en...
复制链接

扫一扫

专栏目录