Linux 的 Out-of-Memory (OOM) Killer

同事在 Linux 服务器上遇到点小问题,我也上去折腾半天。这还是第一次注意到 Linux 这个多年来就存在的特性: OOM Killer 。说白了 OOM Killer 就是一层保护机制,用于避免 Linux 在内存不足的时候不至于出太严重的问题,把无关紧要的进程杀掉,有些壮士断腕的意思。
先要学习点老知识,在 32 位CPU 架构下寻址是有限制的。Linux 内核定义了三个区域:

# DMA: 0x00000000 -  0x00999999 (0 - 16 MB)

# LowMem: 0x01000000 - 0x037999999 (16 - 896 MB) - size: 880MB

# HighMem: 0x038000000 - <硬件特定> 

LowMem 区 (也叫 NORMAL ZONE ) 一共 880 MB,而且不能改变(除非用 hugemem 内核)。对于高负载的系统,就可能因为 LowMem 利用不好而引发 OOM Killer 。一个可能原因是 LowFree 太少了,另外一个原因是 LowMem 里都是碎片,请求不到连续的内存区域【根据我遇到的一个案例,一个猜想是 有些应用一次性请求比较大的内存,恰恰又是 880M 之内的,空闲的(LowFree)不够大,就会触发 OOM Killer 出来干活】。检查当前 LowFree 的值:


# cat /proc/meminfo |grep LowFree检查LowMem内存碎片

还有个高级用法查看low & high memory :

egrep 'High|Low' /proc/meminfo


# cat /proc/buddyinfo上面这条命令要在 2.6 Kernel 环境下有效。据说使用 SysRq 的方式更好,不过 Hang 的时候再用吧。参见 Metalink Note:228203.1 。

根据一些文档描述,OOM Killer 在 2.4 与 2.6 上表现是不一样的。 2.4 的版本中是把新进来(新申请内存)的进程杀掉。而 2.6 上是杀掉占用内存最厉害的进程(这是很危险的,很容易导致系统应用瘫痪)

对于 RHEL 4 ,新增了一个参数: vm.lower_zone_protection 。这个参数默认的单位为 MB, 默认 0 的时候,LowMem 为 16MB。建议设置 vm.lower_zone_protection = 200 甚至更大以避免 LowMem 区域的碎片,是绝对能解决这个问题的(这参数就是解决这个问题出来的)。

而对于 RHEL 3 (Kernel 2.4) 似乎没什么好办法,一个是用 Hugemem 内核(天知道会不会引入新的毛病),一个是升级到 2.4.21-47 并且使用新的核心参数 vm.vm-defragment 控制碎片的数量。再就是使用 RHEL 4 (Kernel 2.6),这又绕回去了。说白了,如果遇到 OOM Killer ,基本上是低版本 Kernel 设计上有点缺陷。

其它,如果去查询 RedHat 的 Bug 库,会发现不少 Kernel 版本也有 Bug 的。尤其在使用 NFS 的场景。

Tip: OOM Killer 的关闭与激活方式:

# echo "0" > /proc/sys/vm/oom-kill 

# echo "1" > /proc/sys/vm/oom-kill

更多参考信息: 


1) OOM killer "Out of Memory: Killed process" SOLUTIONS / SUMMARY【对我遇到的案例没鸟用】
2) Metalink Notes : Linux Kernel Lowmem Pressure Issues and Kernel Structures 
3) Respite from the OOM killer
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
回答: 当Linux系统出现"out of memory"错误时,有几种解决方法可以尝试。首先,最简单的方法是增加内存或者优化应用程序,使其占用更少的内存。另外,可以通过调整内核参数来临时解决该问题。可以使用命令"free -lm"来查看内存使用情况,然后根据需要释放内存。可以通过修改配置文件"/proc/sys/vm/drop_caches"来释放缓存,其中的值可以为0~3,代表不同的含义,例如释放页缓存、释放dentries和inodes,或者释放所有缓存。此外,还可以通过关闭OOM killer来临时关闭内存溢出杀手,可以通过修改"/proc/sys/vm/oom_dump_tasks"文件来实现。如果需要永久生效,可以修改"/etc/sysctl.conf"文件并增加"vm.oom-kill = 0"的配置,然后重启系统或执行"sysctl -p"命令使其生效。[1] 另外,如果系统配置为2G且没有交换分区,可能会导致每天出现"out of memory"错误。在这种情况下,可以增加物理内存并创建交换分区来改善情况。然而,如果系统在运行2-3天后仍然出现"out of memory"错误,可能是由于low memory不足导致的。可以通过使用命令"sync"和"echo 3 >> /proc/sys/vm/drop_caches"来释放内存,并查看"/proc/buddyinfo"文件来确认内存是否已被释放。[3] 另外,如果以上方法无效,还可以考虑安装hugemem kernel RPM包并重启系统来解决问题。这种内核可以以不同的方式分割low memory和high memory,并提供足够多的low memory到high memory的映射。[2]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值