flink实战-处理oom问题

最新推荐文章于 2024-06-02 22:45:38 发布

牛仔好鬼忙

最新推荐文章于 2024-06-02 22:45:38 发布

阅读量2.9k

点赞数

分类专栏： flink 文章标签： flink linux

本文链接：https://blog.csdn.net/razorluo/article/details/106213721

版权

生产环境中，Flink TaskManager因内存使用峰值触发系统OOM-Killer，分析发现是新增定时任务导致。采用standalone模式的Flink集群通过Supervisor监控并恢复TM。配置Supervisor环境变量和启动方式以避免无限重启，同时了解停止TaskManager的正确命令。

摘要由CSDN通过智能技术生成

最近生产频繁遇到flink的tm挂掉的情况，查看了日志发现如下内存使用情况

20200519091357

可见出现峰值，触发了系统的oom-killer程序，通过查看下系统日志 /var/log/messages 确认了的确触发的系统oom-killer

[ pid ]   uid  tgid total_vm      rss nr_ptes swapents oom_score_adj name
[21862]   978 21862  2103161   249370     733        0             0 java
[12678]     0 12623  2036524   667896    1618        0             0 java
Out of memory: Kill process 12678 (java) score 159 or sacrifice child

后面查看内存使用突增的原因是因为增加了几个定时任务，导致内存使用超过系统限制，触发了oom-killer，而它又是挑个最大使用的程序进行删除，所以部署到tm就被误杀了。

这里flink集群是使用standalone的搭建的，所以使用supervisor来监控拉起被误杀的tm，配置如下

[program:flink_taskmanager]
environment = JAVA_HOME="/opt/jdk1.8.0_102"
directory=/opt/flink-1.9.1/bin ; 项目路劲
comma

最低0.47元/天解锁文章

牛仔好鬼忙

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
flink实战-处理oom问题

最近生产频繁遇到flink的tm挂掉的情况，查看了日志发现如下内存使用情况可见出现峰值，触发了系统的oom-killer程序，通过查看下系统日志 /var/log/messages 确认了的确触发的系统oom-killer[ pid ] uid tgid total_vm rss nr_ptes swapents oom_score_adj name[21862] 978 21862 2103161 249370 733 0 0
复制链接

扫一扫

专栏目录