背景
因宕机了一台物理机器,实时集群不少作业发生 failover,其中大部分作业都能 failover 成功,某个部门的部分作业一直在 failover,始终未成功,到 WebUI 查看作业异常日志如下:
2021-11-09 16:01:11
java.util.concurrent.CompletionException: java.lang.reflect.UndeclaredThrowableException
at java.util.concurrent.CompletableFuture.encodeThrowable(CompletableFuture.java:273)
at java.util.concurrent.CompletableFuture.completeThrowable(CompletableFuture.java:280)
at java.util.concurrent.CompletableFuture$AsyncSupply.run(CompletableFuture.java:1592)
at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
at java.util.concurrent.FutureTask.run(FutureTask.java:266)
at java.util.concurrent.ScheduledThreadPoolExecutor$Sche
本文讲述了由于宕机导致Flink作业failover的问题,分析了由于RPC消息大小超过Akka framesize上限造成的问题,并提供了通过增大配置参数解决此类故障的方法。
订阅专栏 解锁全文
390

被折叠的 条评论
为什么被折叠?



