- 博客(1)
- 收藏
- 关注
原创 一次Flink on yarn 任务JobManager内存超用问题排查
有道实时平台的所有flink任务运行在yarn集群上,前段时间,为提升和改善有道flink任务运行稳定性,对实时yarn集群进行了迁移(将实时yarn nodemanger机器进行独立,并将所有实时任务迁移至新机器上)。迁移后,发现约200个任务频繁发生JobManager重试,几乎每30min出现一次重试,严重影响任务稳定性。yarn看到flink任务的application_id在不断attempt重试,几乎每30min重试一次。点击失败的一次“Attempt ID”,查看失败原因。
2024-05-13 11:06:32
1277
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人