网络与系统监控工具-CSDN博客

本文链接：https://blog.csdn.net/Al_xin/article/details/39051695

1、tcpdump

常用法

1）抓取整个网络段的数据包

$ tcpdump net 1.2.3.0/24

2）指定端口号

$ tcpdump dst port 13579

3）协议

$ tcpdump icmp

4）逻辑

$ tcpdump 'src 10.0.0.2 and (dst port 3389 or 22)'

2、lsof

lsof（list open file）是一个列出当前系统打开的文件描述符的工具。通过它我们可以了解感兴趣的进程开打了那些文件描述符，或者我们感兴趣的文件描述符被那些进程打开了。

常见用法：

1）先用ps获取程序的进程号

$ ps -ef |grep websrv

2) 用-p指定进程号

$lsof -p 6346

3、nc

nc（netcat）命令短小精干、功能强大，主要用来快速构建网络连接。我们可以让它以服务器方式运行，监听某个端口并接受客户连接，因此它可用来调试客户端程序。我们也可以以客户端方式运行，想服务器发起连接并收发数据，因此它可以用来调试服务器程序，有点像telnet程序。

1）扫描目标机器上的某个或某些服务是否开启(端口扫描)

$ nc -z ernest-laptop 20-50

2)向web服务器发送数据

$ nc -C 127.0.0.1 13579

GET http://localhost/a.thml HTTP/1.1（回车）

Host:localhost(回车)

(回车)

HTTP/1.1 404 Not Found

Content-Length:49

Connection:close

我们通过上面方式向服务器发送请求。

4、strace

strace是测试服务器性能的重要工具。它跟踪程序运行过程中执行的系统调用和接收到的信号，并将系统调用名、参数、返回值及信号输出到标准输出或者指定的文件里面。

命令重用选项包括：

-c ,统计每个系统调用执行时间、执行次数和出错次数。

-f,跟踪由fork调用生成的子进程。

-t，在输出的每一行信息前加上时间信息。

-e,指定一个表达式，用来控制如何跟踪系统调用。

例子1：

$ strace cat /dev/null

open("/dev/null",O_RDONLY|O_LARGEFILE)=3

5、netstat

netstat是一个功能很强大的网络信息统计工具。它可以打印本地网卡接口上的全部连接、路由信息、网卡接口信息。路由信息和网卡信息可以用route 和ifconfig

使用方法：

我们运行websrv服务器，并执行telnet命令对它发起一个连接请求。

$./websrv 127.0.0.1 13579 &

$ telnet 127.0.0.1 13579

然后执行命令netstat -nat|grep 127.0.0.1:13579 查看连接状态

在服务器程序开发过程中，我们一定要确保每个连接在任一时刻都处于我们期望的状态。要习惯用netstat。

6、vmstat

vmstat是vitual memory statictics 的缩写，它能实时输出系统的各种资源的使用情况，比如进程信息、内存使用、CPU使用率以及I/O使用情况。

vmstat命令是最常见的Linux/Unix监控工具，可以展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率，内存使用，虚拟内存交换情况,IO读写情况。这个命令是我查看Linux/Unix最喜爱的命令，一个是Linux/Unix都支持，二是相比top，我可以看到整个机器的CPU,内存,IO的使用情况，而不是单单看到各个进程的CPU使用率和内存使用率(使用场景不一样)。

一般vmstat工具的使用是通过两个数字参数来完成的，第一个参数是采样的时间间隔数，单位是秒，第二个参数是采样的次数，如:

root@ubuntu:~# vmstat 2 1
procs -----------memory---------- ---swap-- -----io---- -system-- ----cpu----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa
 1  0      0 3498472 315836 3819540    0    0     0     1    2    0  0  0 100  0

2表示每个两秒采集一次服务器状态，1表示只采集一次。

实际上，在应用过程中，我们会在一段时间内一直监控，不想监控直接结束vmstat就行了,例如:

root@ubuntu:~# vmstat 2  
procs -----------memory---------- ---swap-- -----io---- -system-- ----cpu----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa
 1  0      0 3499840 315836 3819660    0    0     0     1    2    0  0  0 100  0
 0  0      0 3499584 315836 3819660    0    0     0     0   88  158  0  0 100  0
 0  0      0 3499708 315836 3819660    0    0     0     2   86  162  0  0 100  0
 0  0      0 3499708 315836 3819660    0    0     0    10   81  151  0  0 100  0
 1  0      0 3499732 315836 3819660    0    0     0     2   83  154  0  0 100  0

这表示vmstat每2秒采集数据，一直采集，直到我结束程序，这里采集了5次数据我就结束了程序。

好了，命令介绍完毕，现在开始实战讲解每个参数的意思。

r 表示运行队列(就是说多少个进程真的分配到CPU)，我测试的服务器目前CPU比较空闲，没什么程序在跑，当这个值超过了CPU数目，就会出现CPU瓶颈了。这个也和top的负载有关系，一般负载超过了3就比较高，超过了5就高，超过了10就不正常了，服务器的状态很危险。top的负载类似每秒的运行队列。如果运行队列过大，表示你的CPU很繁忙，一般会造成CPU使用率很高。

b 表示阻塞的进程,这个不多说，进程阻塞，大家懂的。

swpd 虚拟内存已使用的大小，如果大于0，表示你的机器物理内存不足了，如果不是程序内存泄露的原因，那么你该升级内存了或者把耗内存的任务迁移到其他机器。

free 空闲的物理内存的大小，我的机器内存总共8G，剩余3415M。

buff Linux/Unix系统是用来存储，目录里面有什么内容，权限等的缓存，我本机大概占用300多M

cache cache直接用来记忆我们打开的文件,给文件做缓冲，我本机大概占用300多M(这里是Linux/Unix的聪明之处，把空闲的物理内存的一部分拿来做文件和目录的缓存，是为了提高程序执行的性能，当程序使用内存时，buffer/cached会很快地被使用。)

si 每秒从磁盘读入虚拟内存的大小，如果这个值大于0，表示物理内存不够用或者内存泄露了，要查找耗内存进程解决掉。我的机器内存充裕，一切正常。

so 每秒虚拟内存写入磁盘的大小，如果这个值大于0，同上。

bi 块设备每秒接收的块数量，这里的块设备是指系统上所有的磁盘和其他块设备，默认块大小是1024byte，我本机上没什么IO操作，所以一直是0，但是我曾在处理拷贝大量数据(2-3T)的机器上看过可以达到140000/s，磁盘写入速度差不多140M每秒

bo 块设备每秒发送的块数量，例如我们读取文件，bo就要大于0。bi和bo一般都要接近0，不然就是IO过于频繁，需要调整。

in 每秒CPU的中断次数，包括时间中断

cs 每秒上下文切换次数，例如我们调用系统函数，就要进行上下文切换，线程的切换，也要进程上下文切换，这个值要越小越好，太大了，要考虑调低线程或者进程的数目,例如在apache和nginx这种web服务器中，我们一般做性能测试时会进行几千并发甚至几万并发的测试，选择web服务器的进程可以由进程或者线程的峰值一直下调，压测，直到cs到一个比较小的值，这个进程和线程数就是比较合适的值了。系统调用也是，每次调用系统函数，我们的代码就会进入内核空间，导致上下文切换，这个是很耗资源，也要尽量避免频繁调用系统函数。上下文切换次数过多表示你的CPU大部分浪费在上下文切换，导致CPU干正经事的时间少了，CPU没有充分利用，是不可取的。

us 用户CPU时间，我曾经在一个做加密解密很频繁的服务器上，可以看到us接近100,r运行队列达到80(机器在做压力测试，性能表现不佳)。

sy 系统CPU时间，如果太高，表示系统调用时间长，例如是IO操作频繁。

id 空闲 CPU时间，一般来说，id + us + sy = 100,一般我认为id是空闲CPU使用率，us是用户CPU使用率，sy是系统CPU使用率。

wt 等待IO CPU时间。

7、ifstat

ifstat是interface statistics的缩写，它是一个简单的网络流量监测工具。

然后 man ifstat

-t 显示时间格式: HH:MM:SS

-i 指定的网卡 ,如果有多块网卡以","分隔

-T 显示所有接口的带宽.

# ifstat -t -i tun0,tun1 -T
Time           tun0                tun1               Total
HH:MM:SS   KB/s in KB/s out   KB/s in KB/s out   KB/s in KB/s out
06:38:02      6.25      0.29          1.43      1.18          7.67      1.47
06:38:03      0.74      0.96          2.59      6.07          3.33      7.02
06:38:04     13.37         0.85          7.07      0.81         20.44      1.66
06:38:05      8.15      1.14          3.46      2.24         11.61      3.38
06:38:06      3.26      1.18         13.48     1.20         16.73      2.37
06:38:07      0.57      0.65         1.67       0.19           2.24      0.84
06:38:08      1.36      0.57         0.05       0.10           1.41      0.67
06:38:09      0.23      0.10         0.18       0.00           0.41      0.10
06:38:10      0.54      0.19         0.51       1.13           1.05      1.32
06:38:11      1.08      0.50        1.24        0.12           2.33      0.62

8、mpstat

mpstat是multi-processor statistics的缩写，它能实时监测多处理器系统上每个CPU的使用情况。mpstat命令和iostat命令通常都集成在包systat中。

mpstat
另一个用于获取 CPU 相关统计信息的有用的命令是 mpstat。下面是一个示例输出：
# mpstat -P ALL 5 2
Linux 2.6.9-67.ELsmp (oraclerac1) 12/20/2008
10:42:38 PM CPU %user %nice %system %iowait %irq %soft %idle intr/s
10:42:43 PM all 6.89 0.00 44.76 0.10 0.10 0.10 48.05 1121.60
10:42:43 PM 0 9.20 0.00 49.00 0.00 0.00 0.20 41.60 413.00
10:42:43 PM 1 4.60 0.00 40.60 0.00 0.20 0.20 54.60 708.40
10:42:43 PM CPU %user %nice %system %iowait %irq %soft %idle intr/s
10:42:48 PM all 7.60 0.00 45.30 0.30 0.00 0.10 46.70 1195.01
10:42:48 PM 0 4.19 0.00 2.20 0.40 0.00 0.00 93.21 1034.53
10:42:48 PM 1 10.78 0.00 88.22 0.40 0.00 0.00 0.20 160.48
Average: CPU %user %nice %system %iowait %irq %soft %idle intr/s
Average: all 7.25 0.00 45.03 0.20 0.05 0.10 47.38 1158.34
Average: 0 6.69 0.00 25.57 0.20 0.00 0.10 67.43 724.08
Average: 1 7.69 0.00 64.44 0.20 0.10 0.10 27.37 434.17
它显示了系统中 CPU 的各种统计信息。–P ALL 选项指示该命令显示所有 CPU 的统计信息，
而不只是特定 CPU 的统计信息。参数 5 2 指示该命令每隔 5 秒运行一次，共运行 2 次。
以上输出首先显示了所有 CPU 的合计指标，然后显示了每个 CPU 各自的指标。最后，在结尾处显示所有 CPU 的平均值。
让我们看一看这些列值的含义：
%user 表示处理用户进程所使用 CPU 的百分比。用户进程是用于应用程序（如 Oracle 数据库）的非内核进程。
在本示例输出中，用户 CPU 百分比非常低。
%nice 表示使用 nice 命令对进程进行降级时 CPU 的百分比。在之前的部分中已经对 nice 命令进行了介绍。简单来说，nice 命令更改进程的优先级。
%system 表示内核进程使用的 CPU 百分比
%iowait 表示等待进行 I/O 所使用的 CPU 时间百分比
%irq 表示用于处理系统中断的 CPU 百分比
%soft 表示用于软件中断的 CPU 百分比
%idle 显示 CPU 的空闲时间
%intr/s 显示每秒 CPU 接收的中断总数
当您拥有前面所述的 vmstat 时，您可能想知道 mpstat 命令的作用。差别很大：mpstat 可以显示每个处理器的统计，
而 vmstat 显示所有处理器的统计。因此，编写糟糕的应用程序（不使用多线程体系结构）可能会运行在一个多处理器机器上，
而不使用所有处理器。从而导致一个 CPU 过载，而其他 CPU 却很空闲。通过 mpstat 可以轻松诊断这些类型的问题。
针对 Oracle 用户的用法
与 vmstat 相似，mpstat 命令还产生与 CPU 有关的统计信息，因此所有与 CPU 问题有关的讨论也都适用于 mpstat。
当您看到较低的 %idle 数字时，您知道出现了 CPU 不足的问题。当您看到较高的 %iowait 数字时，
您知道在当前负载下 I/O 子系统出现了某些问题。该信息对于解决 Oracle 数据库性能问题非常方便。

系统监测工具