写在前面
- 博文内容整理自
Brendan Gregg
博客Linux Crisis Tools
- 博文地址: https://www.brendangregg.com/blog/2024-03-24/linux-crisis-tools.html
- 对作者谈到的危机工作做简单说明
- 理解不足小伙伴帮忙指正 😃,生活加油
99%的焦虑都来自于虚度时间和没有好好做事,所以唯一的解决办法就是行动起来,认真做完事情,战胜焦虑,战胜那些心里空荡荡的时刻,而不是选择逃避。不要站在原地想象困难,行动永远是改变现状的最佳方式
危机工具列表
procps
procps
用于查看系统的基本统计信息,提供了多种常用的系统监控和管理命令
- ps (Process Status):用于显示当前进程的信息。
- top:实时显示系统中各个进程的资源占用情况。
- free:显示系统内存的使用情况。
- vmstat:报告关于虚拟内存、进程、CPU 活动等系统级别的统计信息。
- uptime:显示系统启动时间和平均负载。
- w:显示当前登录用户的信息。
- kill:向进程发送信号,通常用于终止进程。
- pgrep/pkill:根据名称或其他属性查找和管理进程。
- pmap:报告进程的内存映射情况。
- slabtop:显示内核slab缓存的使用情况。
上面的命令应该都模式,即使是容器化最小安装,一般也会安装这个工具包
ps(1), vmstat(8), uptime(1), top(1)
util-linux
util-linux
主要用于系统管理和文件操作,包括磁盘分区,文件系统管理,进程管理,系统日志信息以及用户管理
用的比较多的 dmesg(1)
, lsblk(1)
, lscpu(1)
, su(1)
dmeseg
用于内核态的一些日志记录,包括内核启动,以及一些驱动日志
lablk
用于统计磁盘的使用情况。
lscpu
用于统计CPU 的性能指标架构信息。
su
命令用于用户切换
sysstat
sysstat
是一个 Linux 系统性能分析工具集,主要包含以下一些常用工具:
-
sar
(System Activity Reporter): 收集、报告和保存关于 CPU 利用率、内存使用、磁盘 I/O、网络活动等各种系统活动信息。 -
sadc
(System Activity Data Collector): 收集系统活动数据的后台进程。由 sar 命令调用。 -
mpstat
: 报告每个可用 CPU 的 MPU 活动。 -
iostat
: 报告 CPU 统计信息以及磁盘 I/O 子系统的活动。 -
pidstat
: 报告选定任务的 CPU、内存、I/O 等统计信息。 -
cifsiostat
: 报告 CIFS/SMB 客户端的 I/O 统计信息。 -
nfsiostat
: 报告 NFS 客户端的 I/O 统计信息。 -
tapestat
: 报告磁带设备的 I/O 统计信息。
需要启动一下对应的服务
用的比较多的: iostat(1), mpstat(1), pidstat(1), sar(1)
sar 用于查看系统历史性能信息,iostat,mpstat,pidstat
用于查看 IO,CPU 和进程的实时性能信息。
iproute2
iproute2
是一个 Linux 系统的网络配置工具集合,它取代了早期被广泛使用的 net-tools
套件。iproute2
提供了一系列命令行工具,用于管理和配置各种网络设备和功能
iproute2
中一些常用的工具:
ip
: 这是 iproute2 的核心工具,可用于管理网络接口、路由表、ARP 表、隧道等。
tc (Traffic Control)
: 用于配置网络流量控制和整形。
ss (Socket Statistics)
: 显示套接字统计信息。
nstat
: 显示网络统计信息。
ctstat (Connection Tracking)
: 显示连接跟踪信息。
常用工具: ip(8), ss(8), nstat(8), tc(8)
numactl
numactl 是一个 Linux 命令行工具,用于在 NUMA (Non-Uniform Memory Access) 架构的系统上控制程序的内存分配和处理器亲和性。
NUMA 是一种内存访问模型,在多处理器系统中,每个处理器都有自己的本地内存,访问自己本地内存的速度比访问远程内存的速度快。numactl 可以帮助程序充分利用 NUMA 架构的优势。
多处理器系统使用,numastat(8) ,当前输出信息为单处理器数据
tcpdump
tcpdump(8)
TCP抓包工具
抓包命令 tcpdump -i ens32 -A -nn -w /root/web.cap host 192.168.29.152 and port 8080
抓取 ens32
网卡,主机为 192.168.29.152
端口为 8080
的所有出站入站的包。抓包写入 /root/web.cap
linux-tools-common
同时需要安装 linux-tools-$(uname -r)
常用工具; perf(1), turbostat(8)
,
perf
用于系统性能分析
使用了 Linux 的 perf 命令来收集关于 sleep 2 命令执行期间的性能计数器统计信息
turbostat
为 Intel 处理器的一个性能监测工具
bpfcc-tools (bcc)
bpfcc-tools
是基于 BPF (Berkeley Packet Filter) 技术的一套高级性能分析工具集。同时是清单作者开发的 BCC (BPF Compiler Collection)
项目的一部分
常用的工具:
-
opensnoop(8)
: 跟踪文件打开系统调用,可以观察哪些进程在访问哪些文件。 -
execsnoop(8)
: 跟踪新进程的创建,可以观察程序的启动过程。 -
runqlat(8)
: 分析进程的调度延迟,可以观察系统的调度情况。 -
softirqs(8)
,hardirqs(8)
: 分析软中断和硬中断的情况,可以发现中断负载问题。 -
ext4slower(8)
,ext4dist(8)
: 分析ext4
文件系统的I/O
性能。 -
biotop(8)
,biosnoop(8)
,biolatency(8)
: 分析块设备I/O
的性能。 -
tcptop(8)
,tcplife(8)
: 分析TCP
连接的情况,包括吞吐量、连接生命周期等。 -
trace(8)
: 提供通用的动态追踪功能,可以自定义追踪点。 -
argdist(8)
: 分析函数参数的分布情况。 -
funccount(8)
: 统计函数的调用次数。 -
profile(8)
: 基于CPU
性能计数器进行采样分析。
tcptop
工具以 KB 为单位显示主机发送并接收的 TCP 流量
。这个报告会自动刷新并只包含活跃的 TCP 连接。该工具使用 eBPF 功能,因此开销非常低。
bpftrace
bpftrace
是一个基于 eBPF 的高级动态跟踪工具,它提供了一种类似于 awk
的领域特定语言(DSL)来编写强大的跟踪脚本。与 bpfcc-tools 相比,bpftrace 提供了更底层和灵活的 eBPF 编程能力。
bpftrace
内置了许多常用的探针和函数,如opensnoop、execsnoop、runqlat、biosnoop
等,可以快速实现基本的性能分析任务。
简单使用,同时对每个系统调用的开始和结束位置进行跟踪,然后将结果分列输出:
trace-cmd
trace-cmd 是一个基于 Ftrace 的命令行工具,它提供了一种更加简单易用的方式来使用 Ftrace 进行系统跟踪和性能分析。
Ftrace 是 Linux 内核提供的一个强大的动态追踪框架,它内置了各种追踪点,可以深入内核并观察系统行为。但是直接使用 Ftrace 的命令行接口比较复杂,trace-cmd 就是为了简化 Ftrace 的使用而诞生的。
nicstat
nicstat(1):
这是一个用于监控网络设备性能的命令行工具。它可以实时显示网卡的吞吐量、错误数、丢包率等指标,帮助我们诊断网络性能问题。
ethtool
ethtool(8): 这是一个用于查询和配置网络设备的工具。它可以获取网卡的型号、驱动版本、收发包统计等信息,也可以设置网卡的某些参数以优化性能。
Speed: 1000Mb/s
tiptop
tiptop(1): 这是一个基于 CPU 性能计数器的性能监控工具,类似于 top 命令。它可以显示 CPU 的各种性能指标,如 IPC、缓存命中率、CPU 周期等,帮助我们分析应用程序的性能瓶颈。
cpuid
cpuid(1): 这个工具可以查询 CPU 的详细信息,包括型号、缓存大小、指令集支持等。这些信息对于分析应用程序的性能特性很有帮助。
msr-tools
msr-tools: 这是一套用于读写 x86 CPU 的 Model-Specific Registers (MSR) 的工具,包括 rdmsr(8) 和 wrmsr(8) 等命令。
MSR 包含了 CPU 的很多低级配置和性能指标,可以用于深入分析 CPU 的行为。
博文部分内容参考
© 文中涉及参考链接内容版权归原作者所有,如有侵权请告知 😃
https://www.brendangregg.com/blog/2024-03-24/linux-crisis-tools.html