【Linux 性能优化系列】Linux 性能优化 -- CPU 性能篇(三) Linux 软中断

【Linux 性能优化系列】Linux 性能优化 -- CPU 性能篇(三) Linux 软中断

【1】相关概念

【1.1】中断

中断其实是一种异步的事件处理机制,可以提高系统的并发处理能力;为了减少对正常进程运行调度的影响,中断处理程序就需要尽可能快地运行;中断处理程序在响应中断时,还会临时关闭中断,这就会导致上一次中断处理完成之前,其他中断都不能响应,即中断有可能会丢失;

【1.2】软中断

为了解决中断处理程序执行过长和中断丢失的问题,Linux 将中断处理过程分成了两个阶段,即上半部和下半部;
上半部用来快速处理中断,它在中断禁止模式下运行,主要处理跟硬件紧密相关的或时间敏感的工作;上半部直接处理硬件请求,即硬中断,特点是快速执行;
下半部用来延迟处理上半部未完成的工作,通常以内核线程的方式运行;下半部则是由内核触发,即软中断,特点是延迟执行;
实际上,上半部会打断 CPU 正在执行的任务,然后立即执行中断处理程序;下半部以内核线程的方式执行,并且每个 CPU 都对应一个软中断内核线程,名字为 “ksoftirqd/CPU 编号”,比如 0 号 CPU 对应的软中断内核线程的名字就是 ksoftirqd/0;

【1.3】查看软中断和内核线程

proc 文件系统是一种内核空间和用户空间进行通信的机制,可以用来查看内核的数据结构,或者用来动态修改内核的配置;
其中:/proc/softirqs 提供了软中断的运行情况;/proc/interrupts 提供了硬中断的运行情况;


$ cat /proc/softirqs
                    CPU0       CPU1
          HI:          0          0
       TIMER:     811613    1972736
      NET_TX:         49          7
      NET_RX:    1136736    1506885
       BLOCK:          0          0
    IRQ_POLL:          0          0
     TASKLET:     304787       3691
       SCHED:     689718    1897539
     HRTIMER:          0          0
         RCU:    1330771    1354737
分析
1. 软中断的类型,即第一列的内容,从第一列可以看到,软中断包括了 10 个类别,分别对应不同的工作类型;
2. 同一种软中断在不同 CPU 上的分布情况,即同一行的内容,正常情况下,同一种中断在不同 CPU 上的累积次数应该差不多;
3. TASKLET 在不同 CPU 上的分布并不均匀,TASKLET 是最常用的软中断实现机制,每个 TASKLET 只运行一次就会结束,
    并且只在调用它的函数所在的 CPU 上运行;
存在问题,由于只在一个 CPU 上运行导致的调度不均衡,由于不能在多个 CPU 上并行运行带来了性能限制;

软中断实际上是以内核线程的方式运行的,每个 CPU 都对应一个软中断内核线程即 ksoftirqd/CPU 编号,查看这些线程的运行状况的方法

$ ps aux | grep softirq
root         7  0.0  0.0      0     0 ?        S    Oct10   0:01 [ksoftirqd/0]
root        16  0.0  0.0      0     0 ?        S    Oct10   0:01 [ksoftirqd/1]

【2】相关工具与命令

【2.1】sar 工具

sar 是一个系统活动报告工具,既可以实时查看系统的当前活动,又可以配置保存和报告历史统计数据;

语法格式
sar [ 选项 ] [ <时间间隔> [ <次数> ] ]
参数说明
-A:所有报告的总和
-b:显示I/O和传递速率的统计信息
-B:显示换页状态
-d:输出每一块磁盘的使用信息
-e:设置显示报告的结束时间
-f:从制定的文件读取报告
-i:设置状态信息刷新的间隔时间
-P:报告每个CPU的状态
-R:显示内存状态
–u:输出cpu使用情况和统计信息
–v:显示索引节点、文件和其他内核表的状态
-w:显示交换分区的状态
-x:显示给定进程的装
-r:报告内存利用率的统计信息

使用示例

查看CPU使用情况  sar -u
结果
%user       用户空间的CPU使用
%nice       改变过优先级的进程的CPU使用率
%system     内核空间的CPU使用率
%iowait     CPU等待IO的百分比 
%steal      虚拟机的虚拟机CPU使用的CPU
%idle       空闲的CPU
查看平均负载  sar -q
结果
runq-sz    	运行队列的长度(等待运行的进程数,每核的CP不能超过3个)
plist-sz   	进程列表中的进程(processes)和线程数(threads)的数量
ldavg-1  	最后1分钟的CPU平均负载,即将多核CPU过去一分钟的负载相加再除以核心数得出的平均值,5分钟和15分钟以此类推
ldavg-5   	最后5分钟的CPU平均负载
ldavg-15  	最后15分钟的CPU平均负载
blocked
查看内存使用情况  sar -r
结果
kbmemfree   空闲的物理内存大小
kbmemused   使用中的物理内存大小
%memused  	物理内存使用率
kbbuffers  	内核中作为缓冲区使用的物理内存大小,kbbuffers和kbcached,这两个值就是free命令中的buffer和cache
kbcached  	缓存的文件大小
kbcommit   	保证当前系统正常运行所需要的最小内存,即为了确保内存不溢出而需要的最少内存(物理内存+Swap分区)
commit   	该值是kbcommit与内存总量(物理内存+swap分区)的一个百分比的值
kbactive
kbinact
kbdirty
查看系统swap分区统计情况  sar -W
结果
pswpin/s    每秒从交换分区到系统的交换页面(swap page)数量
pswpott/s   每秒从系统交换到swap的交换页面(swap page)的数量
查看IO和传递速率  sar -b
结果
tps  		磁盘每秒钟的IO总数,等于iostat中的tps
rtps  		每秒钟从磁盘读取的IO总数
wtps  		每秒钟从写入到磁盘的IO总数
bread/s  	每秒钟从磁盘读取的块总数
bwrtn/s  	每秒钟此写入到磁盘的块总数
查看磁盘使用情况  sar -d
结果
DEV  		磁盘设备的名称,如果不加-p,会显示dev253-0类似的设备名称,因此加上-p显示的名称更直接
tps  		每秒I/O的传输总数
rd_sec/s  	每秒读取的扇区的总数
wr_sec/s  	每秒写入的扇区的总数
avgrq-sz  	平均每次次磁盘I/O操作的数据大小(扇区)
avgqu-sz  	磁盘请求队列的平均长度
await       从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括请求队列等待时间,单位是毫秒,
            等于寻道时间+队列时间+服务时间
svctm       I/O的服务处理时间,即不包括请求队列中的时间
%util       I/O请求占用的CPU百分比,值越高,说明I/O越慢
统计网络信息 sar -n
-n { <关键词> [,...] | ALL }
        关键词可以是:
        DEV     网卡
        EDEV    网卡 (错误)
        NFS     NFS 客户端
        NFSD    NFS 服务器
        SOCK    Sockets (套接字) (v4)
        IP      IP 流 (v4)
        EIP     IP 流 (v4) (错误)
        ICMP    ICMP 流 (v4)
        EICMP   ICMP 流 (v4) (错误)
        TCP     TCP 流 (v4)
        ETCP    TCP 流 (v4) (错误)
        UDP     UDP 流 (v4)
        SOCK6   Sockets (套接字) (v6)
        IP6     IP 流 (v6)
        EIP6    IP 流 (v6) (错误)
        ICMP6   ICMP 流 (v6)
        EICMP6  ICMP 流 (v6) (错误)
        UDP6    UDP 流 (v6)
网络接口信息 sar -n DEV
结果
IFACE  本地网卡接口的名称
rxpck/s  每秒钟接受的数据包
txpck/s  每秒钟发送的数据库
rxKB/S  每秒钟接受的数据包大小,单位为KB
txKB/S  每秒钟发送的数据包大小,单位为KB
rxcmp/s  每秒钟接受的压缩数据包
txcmp/s  每秒钟发送的压缩包
rxmcst/s  每秒钟接收的多播数据包
-----------------------------------------------------------------------------------------

网络设备通信失败信息 sar -n EDVE
结果
IFACE 网卡名称
rxerr/s  每秒钟接收到的损坏的数据包
txerr/s  每秒钟发送的数据包错误数
coll/s  当发送数据包时候,每秒钟发生的冲撞(collisions)数,这个是在半双工模式下才有
rxdrop/s  当由于缓冲区满的时候,网卡设备接收端每秒钟丢掉的网络包的数目
txdrop/s 当由于缓冲区满的时候,网络设备发送端每秒钟丢掉的网络包的数目
txcarr/s  当发送数据包的时候,每秒钟载波错误发生的次数
rxfram/s   在接收数据包的时候,每秒钟发生的帧对其错误的次数
rxfifo/s    在接收数据包的时候,每秒钟缓冲区溢出的错误发生的次数
txfifo/s    在发生数据包 的时候,每秒钟缓冲区溢出的错误发生的次数
-----------------------------------------------------------------------------------------

统计socket连接信息  sar -n SOCK
结果
totsck  当前被使用的socket总数
tcpsck  当前正在被使用的TCP的socket总数
udpsck   当前正在被使用的UDP的socket总数
rawsck  当前正在被使用于RAW的skcket总数
if-frag   当前的IP分片的数目
tcp-tw  TCP套接字中处于TIME-WAIT状态的连接数量
-----------------------------------------------------------------------------------------

TCP连接的统计  sar -n TCP
结果
active/s  新的主动连接
passive/s  新的被动连接
iseg/s  接受的段
oseg/s  输出的段

【2.2】hping3 工具

hping3 是一个可以构造 TCP/IP 协议数据包的工具,可以对系统进行安全审计、防火墙测试等;

用法: hping3 host [options]
  -h  --help      显示帮助
  -v  --version   显示版本
  -c  --count     发送数据包的数目
  -i  --interval  发送数据包间隔的时间 (uX即X微秒, 例如: -i u1000)
      --fast      等同 -i u10000 (每秒10个包)
      --faster    等同 -i u1000 (每秒100个包)
      --flood	  尽最快发送数据包,不显示回复
  -n  --numeric   数字化输出,象征性输出主机地址
  -q  --quiet     安静模式
  -I  --interface 网卡接口 (默认路由接口)
  -V  --verbose   详细模式
  -D  --debug     调试信息
  -z  --bind      绑定ctrl+z到ttl(默认为目的端口)
  -Z  --unbind    取消绑定ctrl+z键
      --beep      对于接收到的每个匹配数据包蜂鸣声提示

模式选择
  default mode     TCP   // 默认模式是 TCP
  -0  --rawip      RAWIP模式,原始IP模式,在此模式下HPING会发送带数据的IP头,即裸IP方式,使用RAWSOCKET方式
  -1  --icmp       ICMP模式,此模式下HPING会发送IGMP应答报,可以用--ICMPTYPE --ICMPCODE选项发送其他类型/模式的ICMP报文
  -2  --udp        UDP 模式,缺省下,HPING会发送UDP报文到主机的0端口,可以用--baseport--destport--keep选项指定其模式
  -8  --scan       SCAN mode //扫描模式 指定扫描对应的端口
                   Example: hping --scan 1-30,70-90 -S www.target.host    // 扫描
  -9  --listen     listen mode  // 监听模式
  
IP 模式
  -a  --spoof      spoof source address  //源地址欺骗,伪造IP攻击,防火墙就不会记录真实IP了,当然回应的包也接收不到了
  --rand-dest      random destionation address mode. see the man. // 随机目的地址模式
  --rand-source    random source address mode. see the man.       // 随机源地址模式
  -t  --ttl        ttl (默认 64)  //修改 ttl 值
  -N  --id         id (默认 随机)  // hping 中的 ID 值,缺省为随机值
  -W  --winid      使用win* id字节顺序 //使用winid模式,针对不同的操作系统;UNIX ,WINDIWS的id回应不同的,
这选项可以让你的ID回应和WINDOWS一样
  -r  --rel        相对id字段(估计主机流量)  //更改ID的,可以让ID曾递减输出
  -f  --frag       拆分数据包更多的frag //分段,可以测试对方或者交换机碎片处理能力,缺省16字节
  -x  --morefrag   设置更多的分段标志    // 大量碎片,泪滴攻击
  -y  --dontfrag   设置不分段标志    // 发送不可恢复的IP碎片
  -g  --fragoff    set the fragment offset    // 设置断偏移
  -m  --mtu        设置虚拟最大传输单元, implies --frag if packet size > mtu    // 设置虚拟MTU值,当大于mtu的时候分段
  -o  --tos        type of service (default 0x00), try --tos help          // tos字段,缺省0x00
  -G  --rroute     includes RECORD_ROUTE option and display the route buffer    // 记录IP路由,并显示路由缓冲
  --lsrr           松散源路由并记录路由        // 松散源路由
  --ssrr           严格源路由并记录路由      // 严格源路由
  -H  --ipproto    设置IP协议字段,仅在RAW IP模式下使用   //在RAW IP模式里选择IP协议,设置ip协议域,仅在RAW ip模式使用

ICMP 模式
  -C  --icmptype   icmp类型(默认echo请求)    // ICMP类型,缺省回显请求
  -K  --icmpcode   icmp代号(默认0)     // ICMP代码
      --force-icmp 发送所有icmp类型(默认仅发送支持的类型)    // 强制ICMP类型
      --icmp-gw    设置ICMP重定向网关地址(默认0.0.0.0)    // ICMP重定向
      --icmp-ts    等同 --icmp --icmptype 13 (ICMP 时间戳)            // icmp时间戳
      --icmp-addr  等同 --icmp --icmptype 17 (ICMP 地址子网掩码)  // icmp子网地址
      --icmp-help  显示其他icmp选项帮助      // ICMP帮助

UDP/TCP 模式
  -s  --baseport   base source port             (default random)              // 缺省随机源端口
  -p  --destport   [+][+]<port> destination port(default 0) ctrl+z inc/dec    // 缺省随机源端口
  -k  --keep       keep still source port      // 保持源端口
  -w  --win        winsize (default 64)        // win的滑动窗口,windows发送字节(默认64)
  -O  --tcpoff     set fake tcp data offset     (instead of tcphdrlen / 4)    
    // 设置伪造tcp数据偏移量(取代tcp地址长度除4)
  -Q  --seqnum     shows only tcp sequence number        // 仅显示tcp序列号
  -b  --badcksum   (尝试)发送具有错误IP校验和数据包
  -M  --setseq     设置TCP序列号 
  -L  --setack     设置TCP的ack
  -F  --fin        set FIN flag
  -S  --syn        set SYN flag
  -R  --rst        set RST flag
  -P  --push       set PUSH flag
  -A  --ack        set ACK flag
  -U  --urg        set URG flag      // 一大堆IP抱头的设置。
  -X  --xmas       set X unused flag (0x40)
  -Y  --ymas       set Y unused flag (0x80)
  --tcpexitcode    使用last tcp-> th_flags作为退出码
  --tcp-mss        启用具有给定值的TCP MSS选项
  --tcp-timestamp  启用TCP时间戳选项来猜测HZ/uptime

Common //通用设置
  -d  --data       data size    (default is 0)    // 发送数据包大小,缺省是0
  -E  --file       文件数据
  -e  --sign       添加“签名”
  -j  --dump       转储为十六进制数据包
  -J  --print      转储为可打印字符
  -B  --safe       启用“安全”协议
  -u  --end        告诉你什么时候--file达到EOF并防止倒回
  -T  --traceroute traceroute模式(等同使用 --bind 且--ttl 1)
  --tr-stop        在traceroute模式下收到第一个不是ICMP时退出
  --tr-keep-ttl    保持源TTL固定,仅用于监视一跳
  --tr-no-rtt	   不要在跟踪路由模式下计算/显示RTT信息 ARS包描述(新增功能,不稳定)
ARS packet description (new, unstable)
  --apd-send       发送APD描述数据包(参见docs / APD.txt)

【2.3】tcpdump 工具

tcpdump 是一个常用的网络抓包工具,常用来分析各种网络问题;

参数说明
-i any : 监听所有网络接口
-i eth0 : 监听网卡eth0
-D : 显示所有可用接口
-n : 不解析主机名,可避免DNC查询
-nn : 不解析主机名,也不将协议和端口号转换为名称
-q : quiet,打印更少的协议信息
-t : 不在每行打印时间戳
-tttt : 以2019-12-31 02:03:48.523512这样的可读性最强的形式打印时间戳
-X : 在解析和打印时,除了打印每个数据包的报头外,还以十六进制和ASCII格式打印每个数据包的数据
-XX : 与-X相同,并额外显示以太网报头
-v, -vv, -vvv : 逐渐增加信息的详细程度
-c : 进捕获指定数量的数据包
-s : 以字节为单位定义捕获的包大小
-S : 打印TCP序列号的绝对值
-e : 表示在输出中包含链路层头信息,例如可用于打印以太网和IEEE 802.11等协议的MAC层地址
-E :通过提供加密密钥来解密IPSEC流量

TCPDUMP语法
Syntax: Protocol  Direction  Host(s)  Value  Logical Operations  Other expression
Example:     tcp        dst     port     80                 and  tcp dst host 10.2.2.2

Protocol,值可为:ether,fddi,ip,arp,rarp,decnet,lat,sca,moprc,mopdl,tcp,udp,如果未指定,则默认使用所有协议
Direction,值可为: src, dst, src and dst, src or dst,如果不指定,则默认使用 “src or dst”
Host(s),值可为: net, port, host, portrange,如果不指定,则默认使用 “host”
Logical Operations,值可为: not, and, or,“not”优先级最高,”or”和”and” 优先级相同

【3】案例分析

终端一

运行试验环境
# 运行Nginx服务并对外开放80端口
$ docker run -itd --name=nginx -p 80:80 nginx

终端二

使用 curl 访问 Nginx 监听的端口,确认 Nginx 正常启动
$ curl http://192.168.0.30/
<!DOCTYPE html>
<html>
<head>
<title>Welcome to nginx!</title>
...
-------------------------------------------------------------------------------------------

运行 hping3 命令,来模拟 Nginx 的客户端请求
# -S参数表示设置TCP协议的SYN(同步序列号),-p表示目的端口为80
# -i u100表示每隔100微秒发送一个网络帧
# 192.168.0.30 为 Nginx 所在虚拟机 IP
# 注:如果在实践过程中现象不明显,可以尝试把100调小,比如调成10甚至1
$ hping3 -S -p 80 -i u100 192.168.0.30

终端三

# top运行后按数字1切换到显示所有CPU
$ top
top - 10:50:58 up 1 days, 22:10,  1 user,  load average: 0.00, 0.00, 0.00
Tasks: 122 total,   1 running,  71 sleeping,   0 stopped,   0 zombie
%Cpu0  :  0.0 us,  0.0 sy,  0.0 ni, 96.7 id,  0.0 wa,  0.0 hi,  3.3 si,  0.0 st
%Cpu1  :  0.0 us,  0.0 sy,  0.0 ni, 95.6 id,  0.0 wa,  0.0 hi,  4.4 si,  0.0 st
...

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    7 root      20   0       0      0      0 S   0.3  0.0   0:01.64 ksoftirqd/0
   16 root      20   0       0      0      0 S   0.3  0.0   0:01.97 ksoftirqd/1
 2663 root      20   0  923480  28292  13996 S   0.3  0.3   4:58.66 docker-containe
 3699 root      20   0       0      0      0 I   0.3  0.0   0:00.13 kworker/u4:0
 3708 root      20   0   44572   4176   3512 R   0.3  0.1   0:00.07 top
    1 root      20   0  225384   9136   6724 S   0.0  0.1   0:23.25 systemd
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.03 kthreadd
...
分析
1. 平均负载全是 0,就绪队列里面只有一个进程(1 running);
2. 每个 CPU 的使用率都挺低,最高的 CPU1 的使用率也只有 4.4% 并不算高;
3. 进程列表 CPU 使用率最高的进程也只有 0.3% 并不高;
两个 CPU 的使用率虽然分别只有 3.3% 和 4.4%,但都用在了软中断上;
从进程列表上也可以看到,CPU 使用率最高的也是软中断进程 ksoftirqd,可见可能是软中断导致性能问题;

终端四

$ watch -d cat /proc/softirqs
                    CPU0       CPU1
          HI:          0          0
       TIMER:    1083906    2368646
      NET_TX:         53          9
      NET_RX:    1550643    1916776
       BLOCK:          0          0
    IRQ_POLL:          0          0
     TASKLET:     333637       3930
       SCHED:     963675    2293171
     HRTIMER:          0          0
         RCU:    1542111    1590625
分析
通过 /proc/softirqs 文件内容的变化情况,可见
TIMER(定时中断)、NET_RX(网络接收)、SCHED(内核调度)、RCU(RCU 锁)等这几个软中断都在不停变化
其中,NET_RX 即网络数据包接收软中断的变化速率最快,
而其他几种类型的软中断,是保证 Linux 调度、时钟和临界区保护这些正常工作所必需的,所以它们有一定的变化倒是正常的;

-----------------------------------------------------------------------------------------

# -n DEV 表示显示网络收发的报告,间隔1秒输出一组数据
$ sar -n DEV 1
15:03:46        IFACE   rxpck/s   txpck/s    rxkB/s    txkB/s   rxcmp/s   txcmp/s  rxmcst/s   %ifutil
15:03:47         eth0  12607.00   6304.00    664.86    358.11      0.00      0.00      0.00      0.01
15:03:47      docker0   6302.00  12604.00    270.79    664.66      0.00      0.00      0.00      0.00
15:03:47           lo      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00
15:03:47    veth9f6bbcd   6302.00  12604.00    356.95    664.66      0.00      0.00      0.00      0.05
分析
1. 对网卡 eth0 来说,每秒接收的网络帧数比较大,达到了 12607,而发送的网络帧数则比较小,只有 6304;
    每秒接收的千字节数只有 664 KB,而发送的千字节数更小,只有 358 KB;
2. docker0 和 veth9f6bbcd 的数据跟 eth0 基本一致,只是发送和接收相反,发送的数据较大而接收的数据较小;
    这是 Linux 内部网桥转发导致的,即系统把 eth0 收到的包转发给 Nginx 服务即可;
分析 eth0 :接收的 PPS 比较大,达到 12607,而接收的 BPS 却很小,只有 664 KB;
计算网络帧的大小 664*1024/12607 = 54 字节,说明平均每个网络帧只有 54 字节,即小包问题

终端五

tcpdump 命令抓包 通过 -i eth0 选项指定网卡 eth0,并通过 tcp port 80 选项指定 TCP 协议的 80 端口

# -i eth0 只抓取eth0网卡,-n不解析协议名和主机名
# tcp port 80表示只抓取tcp协议并且端口号为80的网络帧
$ tcpdump -i eth0 -n tcp port 80
15:11:32.678966 IP 192.168.0.2.18238 > 192.168.0.30.80: Flags [S], seq 458303614, win 512, length 0
...

分析
192.168.0.2.18238 > 192.168.0.30.80,表示网络帧从 192.168.0.2 的 18238 端口发送到 192.168.0.30 的 80 端口;
Flags [S] 则表示这是一个 SYN 包;

参考致谢

本博客为博主的学习实践总结,并参考了众多博主的博文,在此表示感谢,博主若有不足之处,请批评指正。

【1】Linux性能优化实战

【2】Linux系列之SAR命令使用详解

【3】linux 性能监控 sar命令

【4】hping3 使用详解

【5】Linux下的Tcpdump网络包分析工具使用指南

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值