1,提交的离线任务完成之后,在一段时间后web端没有显示或者说自动消失:
原因分析:
https://blog.csdn.net/u013076044/article/details/104740792
是需要开启historyserver
2,Flink读取hdfs的(hive分区)文件,目前已知有三种方式:
通过循环union方式,本地可以执行,集群提交报错
通过官方API,可是只支持csv文件格式,可以读取hdfs上的文件:
不在官方API的方式,正在测试….
参考:
背景:使用flink批作业 读取存在hdfs上的日志 需要迭代读取目录下所有文件的内容
使用的方法:
Configuration conf = new Configuration();
conf.setBoolean("recursive.file.enumeration", true);
DataSetin = env.readTextFile(urlWithDate).withParameters(conf);
但是由于日志数量比较大 出现akka链接超时问题
无法正常提交job
相关社区issue:
https://issues.apac