blink taskmanager container 堆内存设置
堆内存设置
我们使用的是阿里开源的blink版本,目前flink官方的最新版本是1.9,对sql的支持还不完善,DDL定义语句还处于预览版阶段。使用Yarn来做资源管理,测试过程中,发现taskmanager 所在的 container的堆内存设置遇到一些问题,在此记录一下。
taskmanager.heap.mb: 4096 // 设置无效,flink作业启动时,显示taskmanager的堆内存是4096,但是container的堆内存大小仍然是1024.
taskmanager.multi-slots.min.memory.mb: 4096 // 有效,但是计算年轻代空间大小时,不会参考此参数。
taskmanager.process.heap.memory.mb: 4096 // 有效,正确的设置方式。
taskmanager OOM 问题定位
起初设置仅使用taskmanager.multi-slots.min.memory.mb: 4096 参数设置堆内存,从日志上来看container的堆内存是正确的,但是程序运行一段时间后,就会出现内存溢出。通过查看container的 垃圾回收日志,发现当尽设置taskmanager.multi-slots.min.memory.mb: 4096时,年轻代的大小为默认的78M,而老年代大小为4G左右。由于年轻代过小,导致垃圾回收时,大量的对象直接进入老年代,老年代回收速度,不能满足对象的新增速度,导致程序内存溢出。flink 程序设置taskmanager.process.heap.memory.mb: 4096 参数后,年轻代老年代的大小恢复正常比例。问题解决。