分享一个Flink checkpoint失败的问题和解决办法

本文分析了Flink作业中checkpoint失败的问题,发现原因是由于HDFS的块大小设置不当,导致在高并发下datanode被预定过多空间。解决方案是通过调整Flink配置文件,设置合适的HDFS块大小,避免小文件引发的datanode空间不足。此外,文中还讨论了Flink的checkpoint机制和HDFS不适合存储小文件的原因。
摘要由CSDN通过智能技术生成

本文来自: HeapDump性能社区

PerfMa(笨马网络)官网

接触Flink一段时间了,遇到了一些问题,其中有一个checkpoint失败导致作业重启的问题,遇到了很多次,重启之后一般也能恢复正常,没有太在意,最近2天有同事又频繁遇到,这里记录一下解决方案和分析过程。

我们的flink测试环境有3个节点,部署架构是每个flink节点上部署一个HDFS的DataNode节点,hdfs用于flink的checkpoint和savepoint

现象

image.png

看日志是说有个3个datanode活着,文件副本是1,但是写文件失败

There are 3 datanode(s) running and no node(s) are excluded

网上搜了一下这种报错,没有直接的答案,我看了下namenode的日志,没有更多直接的信息

50070 web ui上看一切正常,datanode的剩余空间都还有很多,使用率不到10%

我试了一下往hdfs上put一个文件再get下来,都ok,说明hdfs服务没有问题,datanode也是通的

日志现象1

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

HeapDump性能社区

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值