背景
运行在 Docker 容器中的 Java 应用经常会被操作系统 kill,但 JVM 没有 OOM 日志,下面是一个 Java 应用的容器因为超过了 cgroup 的限制被 kill:
# dmesg -T
[Sun Mar 22 10:26:23 2020] Memory cgroup out of memory: Kill process 25086 (java) score 1838 or sacrifice child
[Sun Mar 22 10:26:23 2020] Killed process 25086 (java) total-vm:12040204kB, anon-rss:3705828kB, file-rss:23472kB
为什么设置了 -Xmx 还是被 kill
根据 JDK1.8 的特点,JVM 运行时的内存 = 非heap(元空间 + Thread Stack * num of thread + …) + heap + JVM进程运行所需内存 + 其他数据,我们设置的 -Xmx 等参数只是限制了 JVM 堆内存(heap) 的大小,当 -Xmx 设置的值接近与容器限制的值,堆内存 + 非堆内存的使用总和超出了 cgroup 的限制就会被操作系统 kill 掉。
让 JVM 动态感知 cgroup
如果没有设置堆内存的大小,默认情况下,JVM 的 Max Heap Size 是操作系统的 1/4,我们知道 Docker 是通过 CGroups 来实现内存的限制,而 /proc 目录只是以只读的形式挂载到容器中,默认情况下 Java 是看不到 CGroups 限制的内存大小,而是通过 /proc/meminfo 中的信息作为内存信息启动,这种不兼容的情况就会导致,容器分配的内存小于JVM Max Heap Size 的情况。
操作系统的内存信息:
/ $ [ec2-user@ip-172-29-165-49 ~]$ cat /proc/meminfo
MemTotal: 31960240 kB
MemFree: 233200 kB
MemAvailable: 4412724 kB
Docker 容器读取到的内存信息:
[ec2-user@ip-172-29-165-49 ~]$ docker run -it --rm alpine cat /proc/meminfo
Unable to find image ‘alpine:latest’ locally
latest: Pulling from library/alpine
89d9c30c1d48: Pull complete
Digest: sha256:c19173c5ada610a5989151111163d28a67368362762534d8a8121ce95cf2bd5a
Status: Downloaded newer image for alpine:latest
MemTotal: 31960240 kB
MemFree: 278460 kB
MemAvailable: 4351520 kB
Java 8u131及以上版本开始支持了Docker的cpu和memory限制。 在 java8u131+ 及 java9,需要加上 -XX:+UnlockExperimentalVMOptions -XX:+UseCGroupMemoryLimitForHeap 就能使 JVM 感知到对容器的内存限制了。
不过在 Java11 中移除了 UseCGroupMemoryLimitForHeap,而增加了一个 bool UseContainerSupport = true 的参数。
版本
-XX:+UseCGroupMemoryLimitForHeap
-XX:ActiveProcessorCount
-XX:+UseContainerSupport
java9
experimental,默认false
无
无
java10
experimental,默认false
-1
无
java11
移除
-1
product,默认true
如何优化
虽然 JVM 能够动态感知 CGroups 对容器的内存限制了,但是 JVM 默认的堆大小是限制值的 1/4,这会导致内存的利用率太低了;如此看来,要想充分利用服务器的资源,还要手动调整好 -Xmx 参数,下面是来自网络的一组经验值:
以下参数配置适用于非计算密集型的大部分应用
分配内存
堆配置推荐
1.5G
-Xmx1008M -Xms1008M -Xmn336M -XX:MaxMetaspaceSize=128M -XX:MetaspaceSize=128M
2G
-Xmx1344M -Xms1344M -Xmn448M -XX:MaxMetaspaceSize=192M -XX:MetaspaceSize=192M
3G
-Xmx2048M -Xms2048M -Xmn768M -XX:MaxMetaspaceSize=256M -XX:MetaspaceSize=256M
4G
-Xmx2688M -Xms2688M -Xmn960M -XX:MaxMetaspaceSize=256M -XX:MetaspaceSize=256M
5G
-Xmx3392M -Xms3392M -Xmn1216M -XX:MaxMetaspaceSize=512M -XX:MetaspaceSize=512M
6G
-Xmx4096M -Xms4096M -Xmn1536M -XX:MaxMetaspaceSize=512M -XX:MetaspaceSize=512M
7G
-Xmx4736M -Xms4736M -Xmn1728M -XX:MaxMetaspaceSize=512M -XX:MetaspaceSize=512M
8G
-Xmx5440M -Xms5440M -XX:MaxMetaspaceSize=512M -XX:MetaspaceSize=512M
内存>=8G 基础配置
-server
-XX:+DisableExplicitGC
-XX:+UseG1GC
-XX:MaxGCPauseMillis=100
-XX:+ParallelRefProcEnabled
-XX:+HeapDumpOnOutOfMemoryError
-XX:+PrintGCDetails
-XX:+PrintGCTimeStamps
-XX:+PrintHeapAtGC
-XX:+PrintGCApplicationStoppedTime
-XX:+PrintGCDateStamps
-XX:ErrorFile=/var/app/gc/hs_err_pid%p.log
-XX:HeapDumpPath=/var/app/gc
-Xloggc:/var/app/gc/gc%t.log
内存<8G 基础配置
-server
-XX:+DisableExplicitGC
-XX:+UseParNewGC
-XX:+UseConcMarkSweepGC
-XX:+UseCMSInitiatingOccupancyOnly
-XX:CMSInitiatingOccupancyFraction=70
-XX:+ExplicitGCInvokesConcurrentAndUnloadsClasses
-XX:+CMSClassUnloadingEnabled
-XX:+ParallelRefProcEnabled
-XX:+CMSScavengeBeforeRemark
-XX:+HeapDumpOnOutOfMemoryError
-XX:+PrintGCDetails
-XX:+PrintGCTimeStamps
-XX:+PrintHeapAtGC
-XX:+PrintGCApplicationStoppedTime
-XX:+PrintGCDateStamps
-XX:ErrorFile=/var/app/gc/hs_err_pid%p.log
-XX:HeapDumpPath=/var/app/gc
-Xloggc:/var/app/gc/gc%t.log
参考