Linux问题排查-内存使用率高如何分析原因

锅锅来了

已于 2025-05-21 11:13:29 修改

阅读量1.4k

点赞数 26

CC 4.0 BY-SA版权

分类专栏： Linux性能优化原理和实战文章标签： linux 运维内存泄露内存使用率高面试性能优化

于 2025-05-21 10:36:51 首次发布

本文链接：https://blog.csdn.net/cui_win/article/details/148106082

85 篇文章

订阅专栏

以下是针对 Linux 系统内存使用率高的分步排查方法，结合用户进程占用、tmpfs 内存占用、内核内存泄漏和黑洞内存等特殊情况进行分析：

内存使用率公式：

内存使用率 = (MemTotal - MemFree - Buffers - Cached) / MemTotal * 100%

命令：
- top 或 htop（动态排序，按 M 键以内存占用排序）。
- ps aux --sort=-rss | head -n 10（静态排序，查看 RSS 内存占用前 10 的进程）。
- pmap <PID>：查看进程的内存映射详情（如堆、栈、共享库等）。
重点分析：
- 是否有异常进程（如僵尸进程、内存泄漏的应用）。
- 进程是否正常（如数据库、Java 应用等本身内存占用较高是否合理）。

工具：
- Valgrind（用户态程序）：检测堆内存泄漏（适用于 C/C++ 程序）。
- Java 工具：jmap、jconsole、VisualVM（分析 Java 进程的堆内存使用）。
- Python 工具：tracemalloc（跟踪 Python 程序的内存分配）。
方法：
- 观察进程内存是否随时间持续增长（无下降趋势）。
- 对比进程的虚拟内存（VSS）和驻留内存（RSS），若 VSS 远大于 RSS，可能存在内存碎片化。

tmpfs 简介：基于内存的文件系统（如 /dev/shm），占用的内存会计入 MemUsed。
命令：
- df -hT | grep tmpfs：查看 tmpfs 挂载点及其容量、使用量。
- du -sh /dev/shm/*：查看 /dev/shm 下文件/目录的内存占用。
常见问题：
- 应用是否在 /dev/shm 中生成大文件（如数据库临时文件、日志）。
- 是否存在未清理的临时文件（如进程崩溃后残留的文件）。

Slab 内存：内核通过 Slab 分配器管理的对象（如 inode、dentry 等）。
命令：
- cat /proc/meminfo | grep SUnreclaim：查看不可回收的 Slab 内存（SUnreclaim）是否持续增长。
- cat /proc/slabinfo | sort -k3 -n：按对象数量排序，观察是否有异常增长的 Slab 缓存（如 dentry、inode 等）。
分析逻辑：
- 对比不同时间点的 SUnreclaim 值，若持续增加且无合理原因（如系统负载升高），可能存在内核泄漏。
- 结合 slabtop 工具动态监控 Slab 缓存变化。

前提：内核需启用 CONFIG_DEBUG_KMEMLEAK 配置。
操作步骤：
1. 加载模块：modprobe kmemleak。
2. 触发扫描：echo scan > /sys/kernel/debug/kmemleak。
3. 查看结果：dmesg | grep kmemleak 或 cat /sys/kernel/debug/kmemleak。
输出解读：
- 泄漏报告包含内存块地址、大小、调用栈，用于定位内核代码中的泄漏点（如未释放的 kmalloc 内存）。

内核通过直接操作 page 分配的内存（如 alloc_pages），未通过 slab 或 vmalloc 管理，无法被 /proc/meminfo 统计。

黑洞内存 = MemTotal - MemFree - Active - Inactive - Slab - KernelStack - PageTables - VmallocUsed

参数说明（通过 cat /proc/meminfo 获取）：
- MemTotal：总内存。
- MemFree：空闲内存。
- Active/Inactive：活跃/非活跃内存页（对应 Active 和 Inactive 字段）。
- Slab：Slab 字段值（包含 SReclaimable 和 SUnreclaimable）。
- KernelStack：内核栈内存（可通过 cat /proc/kallsyms | grep "\[k\]"$ | wc -l 估算，每个栈约 16KB）。
- PageTables：页表内存（PageTables 字段值）。
- VmallocUsed：vmalloc 分配的内存（VmallocUsed 字段值）。

用户进程：
- 对异常进程限流（如通过 cgroups 限制内存）。
- 重启或升级存在泄漏的应用。
tmpfs：
- 定期清理 /dev/shm 下的无用文件。
- 将大文件存储改为磁盘而非内存。
内核泄漏：
- 更新内核至稳定版本（尤其是针对已知泄漏的版本）。
- 禁用或调试有问题的内核模块。
黑洞内存：
- 若为内核特性（如透明大页、内存压缩），可评估是否需要调整（如 echo never > /sys/kernel/mm/transparent_hugepage/enabled）。
- 若为自定义模块导致，修复模块中的内存分配逻辑。