分享一个Flink checkpoint失败的问题和解决办法

HeapDump性能社区

已于 2022-04-15 16:46:44 修改

阅读量2.5k

点赞数 2

文章标签： flink java

于 2020-08-14 16:22:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PerfMa6/article/details/108007337

版权

本文分析了Flink作业中checkpoint失败的问题，发现原因是由于HDFS的块大小设置不当，导致在高并发下datanode被预定过多空间。解决方案是通过调整Flink配置文件，设置合适的HDFS块大小，避免小文件引发的datanode空间不足。此外，文中还讨论了Flink的checkpoint机制和HDFS不适合存储小文件的原因。

摘要由CSDN通过智能技术生成

本文来自: HeapDump性能社区

PerfMa(笨马网络)官网

接触Flink一段时间了，遇到了一些问题，其中有一个checkpoint失败导致作业重启的问题，遇到了很多次，重启之后一般也能恢复正常，没有太在意，最近2天有同事又频繁遇到，这里记录一下解决方案和分析过程。

我们的flink测试环境有3个节点，部署架构是每个flink节点上部署一个HDFS的DataNode节点，hdfs用于flink的checkpoint和savepoint

现象

看日志是说有个3个datanode活着，文件副本是1，但是写文件失败

There are 3 datanode(s) running and no node(s) are excluded

网上搜了一下这种报错，没有直接的答案，我看了下namenode的日志，没有更多直接的信息

50070 web ui上看一切正常，datanode的剩余空间都还有很多，使用率不到10%

我试了一下往hdfs上put一个文件再get下来，都ok，说明hdfs服务没有问题，datanode也是通的

日志现象1

最低0.47元/天解锁文章

HeapDump性能社区

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

HeapDump性能社区 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。