【linux性能优化】如何定位系统内存的问题

有没有迅速定位内存问题的方法?当定位出内存的瓶颈后,又有哪些优化内存的思路呢?

一、内存性能指标

为了分析内存的性能瓶颈,首先要知道怎样衡量内存的性能,也就是性能指标问题

回顾一下有哪些内存性能指标

1.1 系统内存使用情况

最容易想到的是系统内存使用情况,比如已用内存、剩余内存、共享内存、可用内存、缓存和缓冲区的用量等

  • 已用内存
    已经使用的内存

  • 剩余内存
    还未使用的内存

  • 共享内存
    通过tmpfs实现,所以它的大小也就是tmpfs使用的内存大小
    tmpfs其实也是一种特殊的缓存

  • 可用内存
    新进程可以使用的最大内存,它包括剩余内存和可回收缓存

  • 缓存
    包括两部分:
    一部分是磁盘读取文件的页缓存,用来缓存从磁盘读取的数据,可以加快以后再次访问的速度
    一部分是Slab分配器中的可回收内存

  • 缓冲区
    对原始磁盘块的临时存储,用来缓存将要写入磁盘的数据
    这样,内核就可以把分散的写集中起来统一优化磁盘写入

1.2 进程内存使用情况

第二类很容易想到应该是进程内存使用情况,比如进程的虚拟内存、常驻内存、共享内存以及Swap内存等

  • 虚拟内存
    包括进程代码段、数据段、共享内存、已经申请的堆内存和已经换出的内存等
    需要注意,已经申请的内存即使还没有分配物理内存,也算作虚拟内存

  • 常驻内存
    进程实际使用的物理内存,不包括Swap和共享内存

  • 共享内存
    既包括与其他进程共同使用的真实的共享内存,还包括了加载的动态链接库以及程序的代码段等

  • Swap内存
    指通过Swap换出到磁盘的内存

当然,这些指标中常驻内存一般会换算成占系统总内存的百分比,也就是进程的内存使用率

除了这些很容易想到的指标外,需要再强调一下缺页异常

在内存分配的原理中,系统调用内存分配请求后并不会立刻为其分配物理内存,而是在请求首次访问时通过缺页异常来分配

缺页异常又分为下面两种场景:

  • 次缺页异常

可以直接从物理内存中分配时,被称为次缺页异常

  • 主缺页异常

需要磁盘I/O介入(比如Swap)时,被称为主缺页异常

显然,主缺页异常升高就意味着需要磁盘I/O,那么内存访问也会慢很多

1.3 Swap使用情况

除了系统内存和进程内存,第三类重要指标就是Swap的使用情况,比如Swap的已用空间、剩余空间、换入速度和换出速度等

已用空间和剩余空间很好理解,就是字面上的意思,已经使用和没有使用的内存空间
换入和换出速度,则表示每秒钟换入和换出内存的大小

1.4 性能指标思维导图

内存的性能指标需要熟记并且会用,将这些指标汇总成了一个思维导图:

在这里插入图片描述

二、内存性能工具

了解了内存的性能指标,还得知道怎么才能获得这些指标,也就是会用性能工具

回顾一下前面案例中已经用到的各种内存性能工具

2.1 free

首先,所有的案例中都用到了free
这是个最常用的内存工具,可以查看系统的整体内存和Swap使用情况

2.2 top或ps

相对应的,可以用topps查看进程的内存使用情况

2.3 vmstat

通过proc文件系统可以找到找到了内存指标的来源,并通过vmstat动态观察了内存的变化情况
free相比,vmstat除了可以动态查看内存变化,还可以区分缓存和缓冲区、Swap换入和换出的内存大小

2.4 cachestat

为了弄清楚缓存的命中情况,可以使用cachestat查看整个系统缓存的读写命中情况,并用cachetop观察每个进程缓存的读写命中情况

2.5 memleak

用vmstat发现内存使用在不断增长,又用memleak确认发生了内存泄漏
通过memleak给出的内存分配栈找到了内存泄漏的可疑位置

2.6 sar

sar可以发现缓冲区和Swap升高的问题,通过cachetop找到了缓冲区升高的根源,通过对比剩余内存跟/proc/zoneinfo的内存阈发现Swap升高是内存回收导致的

三、性能指标和工具的联系

3.1 关联维度

性能工具怎么那么多?从两个不同维度出发整理和记忆

  • 从内存指标出发

把工具和内存的工作原理关联起来

  • 从性能工具出发

更快地利用工具找出我们想观察的性能指标

在工具有限的情况下,充分利用手头的每一个工具挖掘出更多的问题

根据内存性能指标和工具的对应关系画出映射表格

3.2 从内存指标出发

第一个表格,从内存指标出发列举了哪些性能工具可以提供这些指标

在实际排查性能问题时可以清楚知道,究竟要用什么工具来辅助分析提供想要的指标
在这里插入图片描述

3.3 从性能工具出发

第二个表格,从性能工具出发整理了这些常见工具能提供的内存指标

掌握了这个表格可以最大化利用已有的工具,尽可能多地找到需要的指标

这些工具的具体使用方法并不用背,只要知道有哪些可用的工具以及这些工具提供的基本指标,真正用到时man一下查它们的使用手册即可
在这里插入图片描述

四、如何分析内存的性能瓶颈

有没有什么方法,可以又快又准地分析出系统的内存问题呢?

方法当然有。还是那个关键词,找关联

4.1 分析思路

其实,虽然内存的性能指标很多,但都是为了描述内存的原理,指标间自然不会完全孤立且一般都会有关联

举个最简单的例子,当看到系统的剩余内存很低时,是不是就说明进程一定不能申请分配新内存了呢?当然不是,因为进程可以使用的内存,除了剩余内存,还包括了可回收的缓存和缓冲区

所以,为了迅速定位内存问题,通常会先运行几个覆盖面比较大的性能工具,比如free、top、vmstat、pidstat等

具体的分析思路主要有这几步:

  1. 先用free和top,查看系统整体的内存使用情况
  2. 再用vmstat和pidstat,查看一段时间的趋势,从而判断出内存问题的类型
  3. 最后进行详细分析,比如内存分配分析、缓存/缓冲区分析、具体进程的内存使用分析

4.2 分析过程流程图

把这个分析过程画成了一张流程图:

在这里插入图片描述
图中列出了最常用的几个内存工具和相关的分析流程。其中箭头表示分析的方向

4.3 分析栗子

举几个例子加深理解

  • 大部分内存都被缓存占用

第一个例子,当通过free发现大部分内存都被缓存占用后,可以使用vmstat或者sar观察一下缓存的变化趋势,确认缓存的使用是否还在继续增大

如果继续增大,则说明导致缓存升高的进程还在运行,那就用缓存/缓冲区分析工具(比如cachetop、slabtop等)分析这些缓存到底被哪里占用

  • 可用内存不足

第二个例子,当free发现系统可用内存不足时,首先要确认内存是否被缓存/缓冲区占用
排除缓存/缓冲区后,可以继续用pidstat或者top定位占用内存最多的进程

找出进程后,再通过进程内存空间工具(比如pmap)分析进程地址空间中内存的使用情况即可

  • 内存不断增长

第三个例子,当通过vmstat或者sar发现内存在不断增长后,可以分析中是否存在内存泄漏的问题

比如可以使用内存分配分析工具memleak检查是否存在内存泄漏,如果存在内存泄漏问题,memleak会输出内存泄漏的进程以及调用堆栈

五、小结

回顾常见的内存性能指标,梳理常见的内存性能分析工具,最后总结了快速分析内存问题的思路

虽然内存的性能指标和性能工具都挺多,但理解了内存管理的基本原理后,发现其实都有一定的关联,需要梳理出它们的关系并掌握内存分析的套路

找到内存问题的来源后,下一步就是相应的优化工作了,内存调优最重要的就是保证应用程序的热点数据放到内存中,并尽量减少换页和交换

常见的优化思路:

  1. 最好禁止Swap
    如果必须开启Swap,降低swappiness的值可以减少内存回收时Swap的使用倾向

  2. 减少内存的动态分配
    比如,可以使用内存池、大页(HugePage)等

  3. 尽量使用缓存和缓冲区来访问数据
    比如,可以使用堆栈明确声明内存空间来存储需要缓存的数据,或者用Redis这类的外部缓存组件优化数据的访问

  4. 使用cgroups等方式限制进程的内存使用情况
    可以确保系统内存不会被异常进程耗尽

  5. 调整核心应用的oom_score
    通过/proc/pid/oom_adj调整核心应用的oom_score,可以保证即使内存紧张核心应用也不会被OOM杀死

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sysu_lluozh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值