1 简介
Linux系统中的iostat
是I/O statistics(输入/输出统计)的缩写,iostat
工具将对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况,同时也会汇报出CPU使用情况。同vmstat
一样,iostat
也有一个弱点,就是它不能对某个进程进行深入分析,仅对系统的整体情况进行分析。
2 iostat
命令格式
iostat [参数] [时间周期] [次数]
命令参数说明如下:
-c 显示CPU使用情况
-d 显示磁盘使用情况
-k 以K为单位显示
-m 以M为单位显示
-N 显示磁盘阵列(LVM) 信息
-n 显示NFS使用情况
-p 可以报告出每块磁盘的每个分区的使用情况
-t 显示终端和CPU的信息
-x 显示详细信息
3 命令使用
3.1 命令:iostat -x
说明:-x,该选项将用于显示和io相关的扩展(详细)数据。
输出:
[root@localhost ~]# iostat -x
Linux 3.10.0-957.1.3.el7.x86_64 (localhost.localdomain) 2020年01月14日 _x86_64_ (8 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
0.40 0.00 0.47 0.09 0.00 99.05
Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util
sda 0.00 0.02 0.00 4.28 0.18 23.37 11.00 0.02 4.84 36.89 4.80 2.06 0.88
dm-0 0.00 0.00 0.00 4.25 0.16 22.18 10.51 0.02 4.13 48.65 4.10 2.04 0.87
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 12.62 0.00 127.03 3.74 145.22 52.16 0.00
dm-2 0.00 0.00 0.00 0.05 0.02 1.18 46.45 0.01 198.41 2.98 202.56 4.19 0.02
输出内容详解:
%user:CPU处在用户模式下的时间百分比
%nice:CPU处在带NICE值的用户模式下的时间百分比
%system:CPU处在系统模式下的时间百分比
%iowait:CPU等待输入输出完成时间的百分比
%steal:管理程序维护另一个虚拟处理器时,虚拟CPU的无意识等待时间百分比
%idle:CPU空闲时间百分比当然了,iostat命令的重点不是用来看CPU的,重点是用来监测磁盘性能的。
Device:设备名称
rrqm/s:每秒合并到设备的读取请求数
wrqm/s:每秒合并到设备的写请求数
r/s:每秒向磁盘发起的读操作数
w/s:每秒向磁盘发起的写操作数
rkB/s:每秒读K字节数
wkB/s:每秒写K字节数
avgrq-sz:平均每次设备I/O操作的数据大小
avgqu-sz:平均I/O队列长度
await:平均每次设备I/O操作的等待时间 (毫秒),一般地,系统I/O响应时间应该低于5ms,如果大于 10ms就比较大了
这个时间包括了队列时间和服务时间,也就是说,一般情况下,await大于svctm,它们的差值越小,则说明队列 时间越短,反之差值越大,队列时间越长,说明系统出了问题。
r_await:每个读操作平均所需的时间;不仅包括硬盘设备读操作的时间,还包括了在kernel队列中等待的时间
w_await:每个写操作平均所需的时间;不仅包括硬盘设备写操作的时间,还包括了在kernel队列中等待的时间
svctm:平均每次设备I/O操作的服务时间 (毫秒)(这个数据不可信!),如果svctm的值与await很接近,表示几乎没有 I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长, 系统上运行的应用程 序将变慢,如果响应时间超过了用户可以容许的范围,这时可以考虑更换更快的磁盘,调整内核elevator算法,优化应 用,或者升级CPU
%util:在统计时间内所有处理IO时间除以总共统计时间,即被IO消耗的CPU百分比。例如,如果统计间隔1秒,该设备有0.8秒在处理IO,而0.2秒闲置,那么该设备的%util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度。一般地,如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即使%util是100%,因为磁盘的并发能力,所以磁盘使用未必就到了瓶颈)。一般%util大于70%,I/O压力就比较大。
3.2 命令:iostat -d 2 3
说明 参数 -d 表示,显示设备(磁盘)使用状态;2表示,数据显示每隔2秒刷新一次。
输出如下
[root@localhost ~]# iostat -d 2 3
Linux 3.10.0-957.1.3.el7.x86_64 (localhost.localdomain) 2020年01月14日 _x86_64_ (8 CPU)
Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn
sda 4.28 0.18 23.37 1552074 198289617
dm-0 4.25 0.16 22.18 1390915 188244049
dm-1 0.00 0.00 0.00 2568 3172
dm-2 0.05 0.02 1.18 128170 10027078
输出内容详解:
tps
:每秒I/O数(即IOPS。磁盘连续读和连续写之和)kB_read/s
:每秒从磁盘读取数据大小,单位KB/skB_wrtn/s
:每秒写入磁盘的数据的大小,单位KB/skB_read
:从磁盘读出的数据总数,单位KBkB_wrtn
:写入磁盘的的数据总数,单位KB
指定监控的设备名称为sda,该命令的输出结果和上面命令完全相同。
iostat -d sda 2
默认监控所有的硬盘设备,现在指定只监控sda。
4 常见用法
iostat -d -k 1 10 #查看TPS和吞吐量信息(磁盘读写速度单位为KB) iostat -d -m 2 #查看TPS和吞吐量信息(磁盘读写速度单位为MB) iostat -d -x -k 1 10 #查看设备使用率(%util)、响应时间(await) iostat -c 1 10 #查看cpu状态
5 性能监控指标
上面说了这么多,也看了那么多的系统输出,那我们在日常运维中到底需要关注哪些字段呢?下面就来说说这篇文章的重点了,我们到底该关注哪些输出内容就可以确定这台服务器是否存在IO性能瓶颈。
- %iowait:如果该值较高,表示磁盘存在I/O瓶颈
- await:一般地,系统I/O响应时间应该低于5ms,如果大于10ms就比较大了
- avgqu-sz:如果I/O请求压力持续超出磁盘处理能力,该值将增加。如果单块磁盘的队列长度持续超过2,一般认为该磁盘存在I/O性能问题。需要注意的是,如果该磁盘为磁盘阵列虚拟的逻辑驱动器,需要再将该值除以组成这个逻辑驱动器的实际物理磁盘数目,以获得平均单块硬盘的I/O等待队列长度
- %util:一般地,如果该参数是100%表示设备已经接近满负荷运行了
最后,除了关注指标外,我们更需要结合部署的业务进行分析。对于磁盘随机读写频繁的业务,比如图片存取、数据库、邮件服务器等,此类业务,tps才是关键点。对于顺序读写频繁的业务,需要传输大块数据的,如视频点播、文件同步,关注的是磁盘的吞吐量。