服务器卡顿元凶大揭秘！Linux 磁盘读写指标是如何决定系统生死的？-CSDN博客

本文链接：https://blog.csdn.net/cui_win/article/details/148195111

在技术运维与系统优化的道路上，磁盘读写性能是绕不开的关键一环。我曾在一次服务器性能优化项目中，就深刻体会到磁盘读写指标监测与分析的重要性。当时，业务系统频繁出现响应迟缓的情况，用户抱怨不断。起初以为是网络或 CPU 问题，排查许久却毫无头绪。直到深入分析磁盘读写指标后才发现，磁盘利用率长期高达 95%，平均响应时间超过 50ms，原来是磁盘性能瓶颈拖了后腿。通过更换高性能 SSD 并优化读写策略，系统性能得到了大幅提升。可见，掌握 Linux 操作系统磁盘读写的评价指标，对保障系统稳定高效运行至关重要。下面，我就来和大家分享一下这些重要指标及其查看方法。

一、概述

在 Linux 操作系统中，磁盘读写性能对系统整体运行效率有着关键影响。通过一系列评价指标，可全面衡量磁盘性能，定位性能瓶颈，为系统优化和硬件升级提供依据。本文将详细阐述 Linux 磁盘读写的主要评价指标及其查看方法。

二、基础性能指标

2.1 吞吐量（Throughput）

定义：单位时间内磁盘完成的读写数据量，通常以 MB/s 或 GB/s 为单位，反映磁盘的整体数据传输能力，受磁盘类型（如 HDD/SSD）、接口（SATA/PCIe）、RAID 配置等因素影响。
公式：吞吐量 = 读写数据总量 / 时间
查看方法
- iostat：执行iostat -d -k 1，每秒刷新磁盘 I/O 信息。kB_read/s表示每秒从设备读取的数据量，kB_wrtn/s表示每秒向设备写入的数据量，将其除以 1024 可换算成 MB/s 单位。
- vmstat：使用vmstat -d，可显示磁盘总吞吐量相关信息，但信息相对简略。
- dstat：运行dstat -d，能实时统计各磁盘的读写速率，直观展示吞吐量变化。

2.2 IOPS（Input/Output Operations Per Second）

定义：每秒完成的 I/O 操作次数，常用于衡量随机读写性能（如数据库场景）。HDD 的 IOPS 通常为几十到数百，SSD 的 IOPS 可达数千到数十万。
公式：IOPS = 读写操作次数 / 时间
查看方法
- iostat：通过iostat -d -x 1，r/s表示每秒响应的读取请求数，w/s表示每秒响应的写入请求数，两者相加可得到大致的 IOPS 值。
- fio：编写配置文件定义测试参数（如rw=randread表示随机读，rw=randwrite表示随机写），运行fio测试，结果中会显示详细的 IOPS 指标，适用于精确测试。

三、时间相关指标

3.1 平均响应时间（Average Response Time）

定义：单个 I/O 操作从发出请求到完成的平均耗时，包括队列等待时间和实际处理时间，单位为毫秒（ms）。理想情况下，随机读写场景中，SSD 响应时间通常低于 1ms，HDD 可能在 5-10ms 以上；顺序读写场景响应时间更低。
查看方法：使用iostat -x 1，await表示平均响应时间，单位是毫秒。一般来说，系统 IO 响应时间应低于 5ms，大于 10ms 可能存在性能问题。

3.2 队列长度（Queue Length）

定义：等待被磁盘处理的 I/O 请求数量（未完成的队列长度）。若队列长度持续大于磁盘的并发处理能力（如 HDD 通常为 1-2，SSD 可达数十），表明磁盘负载过高，可能导致响应时间急剧增加。
查看方法
- cat /proc/diskstats：可查看原始磁盘统计信息，第 11 列和第 14 列分别是读队列长度和写队列长度的瞬时值，但瞬时值参考意义有限。
- dstat：使用dstat工具结合相关参数，通过观察磁盘 I/O 等待的相关数据间接反映队列情况。

3.3 服务时间（Service Time）

定义：磁盘实际处理单个 I/O 请求的时间（不包含队列等待时间），单位为毫秒（ms）。HDD 受转速、寻道时间、磁头定位速度影响，SSD 受闪存芯片速度、控制器算法影响。
查看方法：使用iostat -x 1，svctm表示服务时间，单位为毫秒。需注意，svctm的准确性可能受系统负载和其他因素影响。

四、利用率指标

4.1 磁盘利用率（Utilization）

定义：磁盘处于繁忙状态的时间占比，取值范围 0%~100%。持续高于 70%~80% 可能表明磁盘性能瓶颈，尤其是 HDD；SSD 因并行处理能力强，短期高利用率（如 90%）可能仍表现稳定。
查看方法
- iostat：执行iostat -d -x 1，%util表示磁盘的利用率，它是在统计时间内所有处理 IO 时间除以总共统计时间得到的百分比。
- vmstat：使用vmstat -d，其中有一个字段会显示磁盘活动时间百分比，可反映磁盘利用率情况。

4.2 等待队列时间占比

定义：I/O 请求在队列中等待的时间占总响应时间的比例。若该比例过高（如超过 50%），说明磁盘处理能力不足，需优化或扩容。
查看方法：通常没有直接工具或命令查看，可通过iostat的await（平均响应时间）和svctm（服务时间）估算，等待队列时间占比 = (await - svctm) /await 。

五、其他关键指标

5.1 读写请求分布

定义：分为顺序读写（连续地址的 I/O 操作，如大文件传输，吞吐量高但 IOPS 低）和随机读写（离散地址的 I/O 操作，如数据库事务，吞吐量低但 IOPS 要求高）。
查看方法
- iostat：通过iostat -d -x 1，观察rrqm/s（每秒读取请求合并数）和wrqm/s（每秒写入请求合并数），较高的rrqm/s或wrqm/s可能表明存在较多顺序读写请求；结合r/s和w/s的大小关系，也能辅助判断读写请求分布。
- fio：使用fio配置不同读写模式（如randread、randwrite、read、write）进行测试，观察吞吐量、IOPS 等指标，分析磁盘在不同读写请求分布下的性能表现。

5.2 每请求数据量（Transfer Size）

定义：每次 I/O 操作传输的数据块大小，单位为 KB 或 MB 。大文件传输倾向于高吞吐量、低 IOPS；小文件操作倾向于低吞吐量、高 IOPS。
查看方法
- iostat：使用iostat -d -x 1，rkB/s除以r/s可得到平均每次读取请求的数据量，wkB/s除以w/s可得到平均每次写入请求的数据量。
- fio：在fio测试配置文件中通过设置bs（块大小）参数指定每请求的数据量，观察不同bs设置下的性能表现。

5.3 错误率（Error Rate）

定义：磁盘在读写过程中发生错误的概率，通过smartctl工具查看磁盘 SMART 状态，若出现介质错误（Media Error）或校验错误（CRC Error），可能预示磁盘硬件故障，需及时更换。
查看方法：使用smartctl -a /dev/sda（将/dev/sda替换为要检查的磁盘设备名称），重点关注Reallocated_Sector_Ct（已重新分配的扇区数量）、Current_Pending_Sector（目前正在等待重新分配的扇区数量）、Raw_Read_Error_Rate（从磁盘读取数据时未能纠正的错误数）等与错误计数相关的字段。

六、性能优化方向