任务报错信息:Caused by: java.io.IOException: Unable to close file because the last blockBP-xxxx:blk_xxxx does not have enough number of replicas.
通过查看hdfs日志分析,在任务执行对应时间点namenode rpc处理时长明显耗时增长
说明hdfs性能不足,在大量写入或者删除的场景下会导致该问题。
查看namenode的审计日志分析create和delete操作较之前多了几倍
解决办法:开启IBR特性,减少块上报频率,降低nn压力
dfs.namenode.file.close.num-committed-allowed 调整为1
dfs.blockreport.incremental.intervalMsec调整为1000