内存不足:杀死进程或牺牲孩子

杀死孩子的过程或牺牲 现在是早上6点。 我清醒地总结了导致我太早醒来的电话的事件序列。 这些故事开始时,我的电话警报响了。 困倦而脾气暴躁的我检查了电话,看我是否真的疯了以至于无法在凌晨5点设置唤醒警报。 不,这是我们的监视系统,表明Plumbr服务之一已关闭。

作为该领域经验丰富的资深人士,我开启了浓缩咖啡机,朝着解决方案迈出了正确的第一步。 喝杯咖啡,我有能力解决这些问题。 首先怀疑的是,应用程序本身在崩溃之前似乎表现完全正常。 没有错误,没有警告标志,在应用程序日志中没有任何可疑的痕迹。

我们已经进行的监视已注意到该进程已终止,并且已经重新启动了崩溃的服务。 但是由于我的血液中已经含有咖啡因,所以我开始收集更多证据。 30分钟后,我发现自己盯着/var/log/kern.log中的以下内容:

Jun  4 07:41:59 plumbr kernel: [70667120.897649] Out of memory: Kill process 29957 (java) score 366 or sacrifice child
Jun  4 07:41:59 plumbr kernel: [70667120.897701] Killed process 29957 (java) total-vm:2532680kB, anon-rss:1416508kB, file-rss:0kB

显然,我们成为了Linux内核内部的受害者。 众所周知,Linux是由一堆邪恶的生物(称为“ 守护程序 ”)构建的。 这些守护程序由多个内核作业管理,其中之一似乎特别危险。 显然,所有现代Linux内核都具有一种称为“ 内存不足杀手 ”的内置机制,该机制可以在极低内存条件下消除您的进程。 当检测到这种情况时,将启动杀手并选择要杀死的进程。 使用一组对所有过程进行评分的启发式方法选择目标,然后选择得分最差的目标来杀死目标。

了解“内存不足的杀手””

默认情况下,Linux内核允许进程请求的内存比系统中当前可用的内存更多。 考虑到大多数进程实际上从未真正使用过它们分配的所有内存,因此这在世界范围内都是有意义的。 与这种方法最简单的比较是与电缆运营商进行比较。 他们向所有消费者提供100Mbit的下载承诺,远远超出了他们网络中的实际带宽。 再次押注的事实是,用户将不会同时全部使用其分配的下载限制。 因此,一个10Gbit链路可以成功服务超过我们的简单数学所允许的100个用户。

如果您的某些程序正在耗尽系统内存的路径上,这种方法的副作用是显而易见的,这可能导致内存极低,无法分配任何页面进行处理。 您可能已经遇到过这样的情况,即使没有root帐户也无法杀死有问题的任务。 为防止此类情况,杀手启动并确定要杀死的进程。

您可以从RedHat文档中的本文中了解有关微调“ 内存不足杀手 ”行为的更多信息。

是什么触发了内存不足杀手?

现在我们有了上下文,仍然不清楚是什么触发了“杀手”,并在凌晨5点将我叫醒? 更多调查显示:

  • / proc / sys / vm / overcommit_memory中的配置允许过量使用内存–设置为1,表示每个malloc()应该成功。
  • 该应用程序在EC2 m1.small实例上运行。 EC2实例默认情况下已禁用交换。

这两个事实,再加上我们服务中流量的突然激增,导致应用程序请求越来越多的内存来支持那些额外的用户。 过量使用配置允许为这个贪婪的过程分配越来越多的内存,最终触发了“ 内存不足杀手 ”,他正在按照自己的意图去做。 在半夜杀死我们的应用程序并将我叫醒。

当我向工程师描述这种行为时,其中一位工程师很感兴趣,可以创建一个小的测试用例来重现错误。 在Linux上编译并启动以下Java代码段时(我使用了最新的稳定Ubuntu版本):

package eu.plumbr.demo;
public class OOM {

public static void main(String[] args){
java.util.List l = new java.util.ArrayList();
for (int i = 10000; i < 100000; i++) {
			try {
				l.add(new int[100_000_000]);
			} catch (Throwable t) {
				t.printStackTrace();
			}
		}
}
}

那么您将面临同样的内存不足:杀死进程<PID>(java)得分<SCORE>或牺牲子消息。

请注意,您可能需要调整交换文件和堆大小,在我的测试用例中,我使用了通过-Xmx2g指定的2g堆以及以下配置进行交换:

swapoff -a 
dd if=/dev/zero of=swapfile bs=1024 count=655360
mkswap swapfile
swapon swapfile

解?

有几种方法可以处理这种情况。 在我们的示例中,我们只是将系统迁移到具有更多内存的实例。 我还考虑了允许交换,但是在咨询了工程人员之后,我想起了一个事实,那就是JVM上的垃圾回收进程不擅长在交换下运行,因此该选项不在讨论之列。

其他可能性包括微调OOM杀手 ,在几个小实例上水平扩展负载或减少应用程序的内存需求。

如果您发现研究有趣– 在TwitterRSS 关注Plumbr ,我们将继续发布有关Java内部知识的见解。

翻译自: https://www.javacodegeeks.com/2014/06/out-of-memory-kill-process-or-sacrifice-child.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值