8.1 Linux系统性能监控——《跟老吕学Linux》

本文链接：https://blog.csdn.net/molangmolang/article/details/141973038

8.1 Linux系统性能监控

- - 8.1 Linux系统性能监控

8.1 Linux系统性能监控

系统性能监控是确保Linux系统稳定运行的关键任务。通过监控系统资源的使用情况，系统管理员可以及时发现并解决性能瓶颈和潜在问题。以下是一些常用的系统性能监控工具和命令。

8.1.1 top和htop

使用 top：

top 提供了一个实时更新的视图，显示系统中的进程和资源使用情况。
```
top
```
在 top 命令中，可以按 1 显示所有 CPU 核心的使用情况，或者使用其他按键进行其他操作，如：
- P：按 CPU 使用率排序。
- M：按内存使用率排序。
- T：按时间/累计时间排序。
- k：杀死进程。

使用 htop：

htop 是 top 的一个增强版本，提供了一个彩色的界面，支持鼠标操作，可以更方便地管理进程。
```
htop
```
htop 提供的功能包括：
- 颜色编码显示不同的资源使用级别。
- 支持鼠标操作，如点击进程标签进行排序，点击进程栏选择进程。
- 方便的快捷菜单进行进程管理，如重启、杀死进程等。

高级使用技巧：

自定义 top 显示：
- 可以通过交互命令改变 top 的显示，例如按 f 进入字段管理，选择或取消显示某些字段。
使用 htop 的过滤器：
- htop 允许用户通过正则表达式过滤进程，快速找到特定进程。
监控特定资源：
- 在 htop 中，可以按 F5 切换到树状视图，查看进程的层级关系。
- 可以按 F6 切换到详细视图，查看更多关于进程的信息。
设置 htop 首选项：
- 可以配置 htop 的首选项，如默认的排序字段、颜色方案等。
使用 top 和 htop 监控远程系统：
- 可以通过 SSH 使用 top 或 htop 监控远程系统的资源使用情况：
```
top -b -n 1 -H -p <PID>
htop -u <username> -p <PID>
```

通过这些 top 和 htop 命令的使用技巧，系统管理员可以更有效地监控和管理系统的资源使用情况，及时发现并处理性能问题。

8.1.2 vmstat

基本使用：

使用 vmstat 命令可以快速查看系统的整体性能指标。
```
vmstat 1
```
这个命令会每秒更新一次数据。

输出字段解释：

vmstat 的输出包括多个字段，每个字段都有特定的含义：
- us（用户空间）: 显示 CPU 在用户空间花费的百分比。
- sy（系统空间）: 显示 CPU 在系统空间花费的百分比。
- id（空闲）: 显示 CPU 空闲的百分比。
- wa（等待I/O）: 显示 CPU 花费在等待输入输出操作上的百分比。
- st（虚拟机偷取时间）: 显示虚拟机偷取的时间。

高级用法：

监控特定资源：

使用 vmstat 监控特定资源，如内存和I/O：

vmstat 1 10 s  # 每1秒更新一次，共更新10次
vmstat -a  # 显示所有CPU的历史平均使用情况

组合使用：
- 可以将 vmstat 与其他工具结合使用，如 grep 或 awk，进行更复杂的数据分析：
```
vmstat 1 | grep us
```
日志记录：
- 将 vmstat 的输出重定向到文件中，用于后续分析：
```
vmstat 1 > vmstat.log
```
监控远程系统：
- 通过 SSH 使用 vmstat 监控远程系统的资源使用情况：
```
ssh user@remotehost "vmstat 1"
```
性能调优：
- 根据 vmstat 的输出调整系统配置，如增加交换空间或优化内存使用。

安全注意事项：

在使用 vmstat 时，应注意保护输出数据，避免泄露敏感信息。

性能分析：

分析 vmstat 的输出，识别性能瓶颈，如高CPU使用率、高I/O等待时间等。

通过这些 vmstat 命令的使用技巧，系统管理员可以更有效地监控和分析系统的资源使用情况，及时发现并处理性能问题。

8.1.3 iostat

基本使用：

使用 iostat 命令可以监控系统的I/O负载，特别是磁盘I/O。
```
iostat 1
```
这个命令会每秒更新一次数据，显示所有CPU和磁盘的统计信息。

输出字段解释：

iostat 的输出包括多个字段，每个字段都有特定的含义：
- rrqm/s 和 wrqm/s：每秒对该设备的读/写请求合并次数。
- r/s 和 w/s：每秒完成的读/写请求次数。
- rkB/s 和 wkB/s：每秒读/写的千字节数。
- avgrq-sz：平均请求的大小。
- avgqu-sz：平均等待处理的请求队列长度。
- await：平均每次请求的服务时间。
- %util：磁盘I/O的利用率。

高级用法：

指定磁盘设备：
- 使用 -d 选项指定特定的磁盘设备，如 sda 或 sdb。
```
iostat -d sda 1
```
显示所有设备：
- 使用 -x 选项显示扩展的I/O统计信息。
```
iostat -x 1
```
显示CPU统计信息：
- 使用 -c 选项显示CPU使用率的统计信息。
```
iostat -c 1
```
组合使用：
- 可以将 iostat 与其他工具结合使用，如 grep 或 awk，进行更复杂的数据分析：
```
iostat -dx | grep sda
```
日志记录：
- 将 iostat 的输出重定向到文件中，用于后续分析：
```
iostat -dx 1 > iostat.log
```
监控远程系统：
- 通过 SSH 使用 iostat 监控远程系统的I/O负载：
```
ssh user@remotehost "iostat -dx 1"
```
性能调优：
- 根据 iostat 的输出调整系统配置，如增加磁盘或优化I/O子系统。

安全注意事项：

在使用 iostat 时，应注意保护输出数据，避免泄露敏感信息。

性能分析：

分析 iostat 的输出，识别性能瓶颈，如高I/O等待时间或低I/O利用率。

通过这些 iostat 命令的使用技巧，系统管理员可以更有效地监控和分析系统的I/O性能，及时发现并处理性能问题。

8.1.4 sar

基本使用：

使用 sar 命令可以收集系统性能数据，这些数据可以用来分析系统的历史性能。
```
sar -u 1 5
```
这个命令会每1秒采集一次 CPU 使用情况，共采集5次。

收集不同类型的数据：

sar 能够收集多种类型的系统活动数据，包括 CPU、内存、I/O、网络等。
- CPU：sar -u
- 内存：sar -r
- I/O：sar -b
- 网络：sar -n

使用 sar 的高级选项：

收集所有类型的数据：
```
sar -A 1 5
```
保存和查看历史数据：
- sar 可以保存历史数据到文件中，以便后续分析。
```
sar -u -o sar_data 1 5
```
- 使用 sar 查看保存的数据：
```
sar -f sar_data
```

分析 sar 的输出：

分析 sar 的输出可以帮助识别系统的性能瓶颈和异常行为。

监控远程系统：

通过 SSH 使用 sar 监控远程系统的活动：
```
ssh user@remotehost "sar -u 1 5"
```

日志记录：

将 sar 的输出重定向到文件中，用于后续分析：
```
sar -u 1 5 > cpu_usage.log
```

定期收集数据：

可以设置 cron 作业定期收集系统性能数据：
```
0 * * * * root sar -u -o /var/log/sar_cpu 1 60
```

使用 sadc 命令：

sadc 是 sar 的数据收集守护进程，它在后台运行并收集系统性能数据。
启动 sadc：
```
sudo service sysstat start
```

安全注意事项：

在使用 sar 时，应注意保护收集的数据，避免泄露敏感信息。

性能调优：

根据 sar 的输出调整系统配置，如增加内存、优化磁盘性能或调整网络设置。

通过这些 sar 命令的使用技巧，系统管理员可以更有效地监控和分析系统的资源使用情况，及时发现并处理性能问题。

8.1.5 df

基本使用：

使用 df 命令查看文件系统的磁盘空间使用情况：
```
df -h
```
选项说明：
- -h 表示以易读的格式（如 MB、GB）显示信息。

查看特定文件系统的使用情况：

指定文件系统或挂载点查看其使用情况：
```
df -h /dev/sda1
```

查看所有文件系统的使用情况：

查看所有已挂载的文件系统：
```
df -a
```

查看inode使用情况：

查看inode的使用情况：
```
df -i
```

查看文件系统的类型：

查看文件系统的类型，如 ext4、xfs 等：
```
df -T
```

输出排序：

根据磁盘使用率排序输出：
```
df -h | sort -k5 -r
```

定期检查磁盘空间：

将 df 命令结合 cron 作业定期检查磁盘空间，并发送报告：
```
0 0 * * * root df -h > /var/log/disk_usage.log
```

使用 du 命令配合 df：

使用 du 命令检查特定目录的磁盘使用情况，然后使用 df 验证：
```
du -sh /path/to/directory
df -h /path/to/directory
```

检查磁盘空间配额：

如果系统配置了磁盘配额，df 命令可以显示配额限制：
```
df -B 1
```

监控磁盘空间变化：

监控特定时间段内磁盘空间的变化：
```
watch -n 300 "df -h"
```

安全注意事项：

确保定期检查磁盘空间，避免因磁盘空间耗尽导致系统服务不可用。

性能调优：

如果发现磁盘空间不足，考虑清理不必要的文件、迁移数据到其他磁盘或增加磁盘容量。

通过这些 df 命令的使用技巧，系统管理员可以更有效地监控和管理磁盘空间，确保系统的稳定运行。

8.1.6 du

基本使用：

使用 du 命令查看当前目录下每个子目录的磁盘使用情况：
```
du -sh *
```
选项说明：
- -s 表示汇总显示，不显示子目录的详细使用情况。
- -h 表示以易读的格式（如 MB、GB）显示磁盘使用量。

查看特定目录的磁盘使用情况：

查看指定目录的磁盘使用情况：
```
du -sh /path/to/directory
```

递归查看磁盘使用情况：

递归查看目录及其子目录的磁盘使用情况：
```
du -ah /path/to/directory | sort -hr
```
选项说明：
- -a 表示显示所有文件和目录的磁盘使用量。
- sort -hr 表示按大小排序，-h 表示人类可读的数字格式，-r 表示逆序（从大到小）。

排除特定目录：

在查看磁盘使用情况时排除特定目录：

du --exclude=/path/to/exclude /path/to/directory

查看文件的磁盘使用情况：

查看单个文件的磁盘使用情况：
```
du -sh /path/to/file
```

估算磁盘使用情况：

估算当前目录下的总磁盘使用量：
```
du -sh .
```

使用 du 进行性能调优：

使用 du 识别和删除不必要的大文件，以释放磁盘空间。

日志记录：

将 du 的输出重定向到文件中，用于后续分析：
```
du -sh /path/to/directory > disk_usage.log
```

定期检查磁盘使用情况：

将 du 命令结合 cron 作业定期检查磁盘使用情况，并发送报告：
```
0 0 * * * root du -sh /path/to/directory > /var/log/disk_usage.log
```

安全注意事项：

在使用 du 时，应注意保护输出数据，避免泄露敏感信息。

性能分析：

分析 du 的输出，识别磁盘使用模式，如周期性增长的目录或异常大的文件。

通过这些 du 命令的使用技巧，系统管理员可以更有效地监控和管理文件和目录的磁盘使用情况，及时发现并处理存储空间问题。

8.1.7 free

基本使用：

使用 free 命令查看内存使用情况：
```
free -m
```
选项说明：
- -m 表示以 MB 为单位显示内存使用量。

详细输出：

使用 -o 选项显示额外的信息，如可用内存和交换空间的百分比：
```
free -mo
```

持续监控：

持续监控内存使用情况，每隔一定时间更新一次：
```
watch -n 1 free -m
```

显示总内存和交换空间：

使用 -t 选项显示内存和交换空间的总计：
```
free -tm
```

显示内存使用趋势：

使用 -h 选项以易读的格式显示内存使用情况，并显示趋势图：
```
free -h --si --trend
```

显示内存使用百分比：

使用 -p 选项显示内存使用百分比：
```
free -p
```

显示所有内存节点的使用情况：

对于多节点系统，使用 -A 选项显示所有节点的内存使用情况：
```
free -A -m
```

日志记录：

将 free 的输出重定向到文件中，用于后续分析：
```
free -m > memory_usage.log
```

监控远程系统：

通过 SSH 使用 free 监控远程系统的内存使用情况：
```
ssh user@remotehost "free -m"
```

性能调优：

根据 free 的输出调整系统配置，如增加交换空间或优化内存使用。

安全注意事项：

在使用 free 时，应注意保护输出数据，避免泄露敏感信息。

性能分析：

分析 free 的输出，识别内存使用模式，如持续增长的内存使用量或低可用内存。

通过这些 free 命令的使用技巧，系统管理员可以更有效地监控和管理系统的内存资源，及时发现并处理内存相关的性能问题。

8.1.8 mpstat

基本使用：

使用 mpstat 命令监控所有 CPU 核心的使用情况：
```
mpstat -P ALL 1
```
选项说明：
- -P ALL 表示监控所有 CPU 核心。
- 1 表示每秒更新一次。

监控特定 CPU 核心：

监控特定编号的 CPU 核心：

mpstat -P 0,1 1  # 仅监控 CPU 核心 0 和 1

查看 CPU 使用率的百分比：

显示 CPU 使用率的百分比：
```
mpstat -p ALL
```

收集长时间范围内的数据：

收集并记录一定时间范围内的 CPU 使用情况：
```
mpstat -P ALL 5 120
```
这个命令会每5秒更新一次，共记录120次。

日志记录：

将 mpstat 的输出重定向到文件中，用于后续分析：
```
mpstat -P ALL 1 > mpstat.log
```

组合使用：

可以将 mpstat 与其他工具结合使用，如 grep 或 awk，进行更复杂的数据分析：
```
mpstat -P ALL 1 | grep all
```

监控远程系统：

通过 SSH 使用 mpstat 监控远程系统的 CPU 使用情况：
```
ssh user@remotehost "mpstat -P ALL 1"
```

性能调优：

根据 mpstat 的输出调整系统配置，如优化进程调度或升级硬件。

安全注意事项：

在使用 mpstat 时，应注意保护输出数据，避免泄露敏感信息。

性能分析：

分析 mpstat 的输出，识别 CPU 使用模式，如持续高负载或性能瓶颈。

通过这些 mpstat 命令的使用技巧，系统管理员可以更有效地监控和分析系统的 CPU 性能，及时发现并处理 CPU 相关的性能问题。

8.1.9 netstat

基本使用：

使用 netstat 命令查看网络连接和端口使用情况：
```
netstat -tuln
```
选项说明：
- -t 表示显示 TCP 连接。
- -u 表示显示 UDP 连接。
- -l 表示显示监听状态的连接。
- -n 表示以数字形式显示地址和端口号。

查看所有网络连接：

查看所有活动的网络连接（包括 TCP 和 UDP）：
```
netstat -an
```

查看路由表：

查看系统的路由表：
```
netstat -rn
```

查看伪装连接：

查看伪装（masqueraded）连接，通常用于 NAT：
```
netstat -m
```

查看网络接口统计：

查看网络接口的统计信息：
```
netstat -i
```

显示程序名称：

显示与网络连接关联的程序名称：
```
netstat -tulnp
```

显示持续时间和接收/发送数据量：

显示 TCP 连接的持续时间以及接收和发送的数据量：
```
netstat -tux
```

监控远程系统：

通过 SSH 使用 netstat 监控远程系统的网络连接：
```
ssh user@remotehost "netstat -tuln"
```

日志记录：

将 netstat 的输出重定向到文件中，用于后续分析：
```
netstat -tuln > netstat.log
```

性能调优：

根据 netstat 的输出调整网络配置，如调整网络缓冲区大小或优化路由策略。

安全注意事项：

在使用 netstat 时，应注意保护输出数据，避免泄露敏感信息。

性能分析：

分析 netstat 的输出，识别网络连接模式，如异常的连接数量或高数据传输量。

通过这些 netstat 命令的使用技巧，系统管理员可以更有效地监控和分析系统的网络状态，及时发现并处理网络相关的性能问题。

8.1.10 iftop

基本使用：

启动 iftop 以监控默认网络接口的带宽使用情况：
```
iftop
```

选择特定的网络接口：

指定要监控的网络接口：
```
iftop -i eth0
```

过滤显示的流量：

只显示特定方向的流量（incoming、outgoing 或 both）：
```
iftop -d outgoing
```

设置刷新间隔：

设置 iftop 刷新间隔的时间（单位为秒）：
```
iftop -F 2
```

显示汇总统计信息：

显示网络接口的汇总统计信息：
```
iftop -c
```

持续监控：

使 iftop 在后台持续运行，而不是在一段时间后退出：
```
iftop -b
```

输出到文件：

将 iftop 的输出重定向到文件中，用于后续分析：
```
iftop -b > iftop.log
```

使用 iftop 监控远程系统：

通过 SSH 使用 iftop 监控远程系统的网络带宽：
```
ssh user@remotehost 'iftop -b'
```

过滤特定 IP 地址或网络：

过滤显示来自或发往特定 IP 地址或网络的流量：
```
iftop -f 192.168.1.100
```

安全注意事项：

在使用 iftop 时，应注意保护输出数据，避免泄露敏感信息。

性能调优：

根据 iftop 的输出调整网络配置，如增加带宽、优化路由策略或调整网络设备的配置。

性能分析：

分析 iftop 的输出，识别网络流量模式，如异常流量峰值或持续的高带宽使用。

通过这些 iftop 命令的使用技巧，系统管理员可以更有效地监控和分析网络带宽使用情况，及时发现并处理网络性能问题。

8.1.11 系统日志

查看系统日志：

使用 less 命令查看系统日志文件：
```
sudo less /var/log/syslog
```
less 命令允许你逐步浏览日志文件，使用键盘上下键来控制浏览。

使用 tail 查看最新日志：

查看系统日志的最后几行，这通常包含了最新的事件信息：
```
sudo tail -n 20 /var/log/syslog
```
使用 -f 选项可以实时跟踪日志文件的更新：
```
sudo tail -f /var/log/syslog
```

使用 grep 搜索特定日志：

在日志文件中搜索包含特定文本的行：
```
sudo grep 'error' /var/log/syslog
```

分析日志文件：

使用 awk、sed 或 grep 等文本处理工具分析日志文件，提取有用的信息。

日志轮转：

配置 logrotate 来管理日志文件的轮转，防止日志文件占用过多磁盘空间：
```
sudo nano /etc/logrotate.conf
```

查看特定服务的日志：

许多服务（如 Apache、MySQL）有它们自己的日志文件，通常位于 /var/log 目录：
```
sudo less /var/log/apache2/error.log
```

使用 journalctl 查看系统日志：

对于使用 systemd 的系统，journalctl 是一个强大的工具，用于查看和分析系统日志：
```
sudo journalctl -xe
```
选项说明：
- -x 表示显示额外的日志信息。
- -e 表示跳转到日志文件的末尾。

日志分析工具：

使用 logwatch 或其他日志分析工具自动化日志分析过程：

sudo apt install logwatch  # Debian/Ubuntu
sudo yum install logwatch  # CentOS
sudo logwatch

安全注意事项：

确保日志文件的安全性，避免未授权访问。
定期审查日志文件，以便及时发现安全事件或异常行为。

性能监控：

分析系统日志可以帮助识别性能瓶颈，如频繁的错误、系统资源不足等。

通过这些系统日志管理技巧，系统管理员可以更有效地监控和分析系统事件，及时发现并处理系统问题。

8.1.12 性能监控工具

GNOME系统监视器：

GNOME系统监视器是GNOME桌面环境的一部分，提供了实时的系统资源使用情况，包括CPU、内存、磁盘I/O和网络。
它通常可以在系统菜单中找到，或者通过在终端中输入gnome-system-monitor来启动。

KDE系统监护：

KDE系统监护是KDE Plasma桌面环境的一部分，提供了全面的系统监控功能，包括多核CPU使用率、内存使用情况、网络流量等。
可以在KDE的应用程序菜单中找到，或者通过在终端中输入systemguard来启动。

nmon：

nmon是一个交互式的性能监控工具，它提供了一个实时的系统性能监控界面，并且可以生成性能数据的报告。
可以通过在终端中输入nmon来启动，它提供了多种视图，包括CPU、内存、磁盘和网络使用情况。

其他图形界面性能监控工具：

htop：
- 虽然htop主要是一个命令行工具，但它提供了一个彩色的、易于阅读的界面来查看进程和资源使用情况。
- 可以通过在终端中输入htop来启动。
glances：
- Glances是一个跨平台的系统监控工具，它提供了一个美观的界面来显示系统资源使用情况。
- 可以通过在终端中输入glances来启动。
Conky：
- Conky是一个轻量级的系统监视器，它以图形化的方式显示系统信息，包括CPU、内存、磁盘使用率等。
- 可以通过在终端中输入conky来启动。
vmstat：
- vmstat虽然是一个命令行工具，但它提供了系统性能的关键指标，如CPU、内存、I/O和网络使用情况。
- 可以通过在终端中输入vmstat来启动。