flink实战-处理oom问题

生产环境中,Flink TaskManager因内存使用峰值触发系统OOM-Killer,分析发现是新增定时任务导致。采用standalone模式的Flink集群通过Supervisor监控并恢复TM。配置Supervisor环境变量和启动方式以避免无限重启,同时了解停止TaskManager的正确命令。
摘要由CSDN通过智能技术生成

最近生产频繁遇到flink的tm挂掉的情况,查看了日志发现如下内存使用情况

20200519091357

可见出现峰值,触发了系统的oom-killer程序,通过查看下系统日志 /var/log/messages 确认了的确触发的系统oom-killer

[ pid ]   uid  tgid total_vm      rss nr_ptes swapents oom_score_adj name
[21862]   978 21862  2103161   249370     733        0             0 java
[12678]     0 12623  2036524   667896    1618        0             0 java
Out of memory: Kill process 12678 (java) score 159 or sacrifice child

后面查看内存使用突增的原因是因为增加了几个定时任务,导致内存使用超过系统限制,触发了oom-killer,而它又是挑个最大使用的程序进行删除,所以部署到tm就被误杀了。

这里flink集群是使用standalone的搭建的,所以使用supervisor来监控拉起被误杀的tm,配置如下

[program:flink_taskmanager]
environment = JAVA_HOME="/opt/jdk1.8.0_102"
directory=/opt/flink-1.9.1/bin ; 项目路劲
comma
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值