- 博客(2)
- 收藏
- 关注
原创 Flink-Sql1.12 to Hive使用遇到的问题-程序因集群高负载导致宕机且自动恢复失败原因排查记录
task manager的六个container仅部署在三台机器[dn05,dn06,dn08],集群有9个DN,可见此时集群的负载很高。现象:该过程中dn05 normal;#dn06异常的大致时段: 20:39(不确定) ~ 20:48 何时恢复的正常未考究,该过程出现了频繁的上下线;#在这之后,dn05又被下线(很快又上线,该过程很频繁,大概是因为集群资源当时太紧张,没有其他机器可供分配)。dn05异常的大致时段: 20:00 ~ 20:48 何时恢复的正常未考究,该过程出现了频繁的上下线;
2023-09-15 21:08:52
398
1
原创 Flink-Sql1.12 to Hive使用遇到的问题-程序宕机后重启遇大数据量积压导致taskmanager内存不足无法从指定offset启动
2. 若数据量过大,程序报错:Caused by: java.lang.OutOfMemoryError: Java heap space,内存不足,导致无法checkpoints,分区数据文件无法提交,程序最终失败!1. 数据量太大,flink处理不过来时。会导致丢失任务失败的间隔段。(丢失的数据可以从kafka手动恢复,过程较为麻烦)1. flink在指定kafka offset启动(重启)后,会尝试将从指定offset的数据到最新的数据全部加载至内存并行输出;2. 将指定的offset调大。
2023-09-15 17:18:18
113
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人