【Linux 性能优化系列】Linux 性能优化 -- CPU 性能篇(三) Linux 软中断
【1】相关概念
【1.1】中断
中断其实是一种异步的事件处理机制,可以提高系统的并发处理能力;为了减少对正常进程运行调度的影响,中断处理程序就需要尽可能快地运行;中断处理程序在响应中断时,还会临时关闭中断,这就会导致上一次中断处理完成之前,其他中断都不能响应,即中断有可能会丢失;
【1.2】软中断
为了解决中断处理程序执行过长和中断丢失的问题,Linux 将中断处理过程分成了两个阶段,即上半部和下半部;
上半部用来快速处理中断,它在中断禁止模式下运行,主要处理跟硬件紧密相关的或时间敏感的工作;上半部直接处理硬件请求,即硬中断,特点是快速执行;
下半部用来延迟处理上半部未完成的工作,通常以内核线程的方式运行;下半部则是由内核触发,即软中断,特点是延迟执行;
实际上,上半部会打断 CPU 正在执行的任务,然后立即执行中断处理程序;下半部以内核线程的方式执行,并且每个 CPU 都对应一个软中断内核线程,名字为 “ksoftirqd/CPU 编号”,比如 0 号 CPU 对应的软中断内核线程的名字就是 ksoftirqd/0;
【1.3】查看软中断和内核线程
proc 文件系统是一种内核空间和用户空间进行通信的机制,可以用来查看内核的数据结构,或者用来动态修改内核的配置;
其中:/proc/softirqs 提供了软中断的运行情况;/proc/interrupts 提供了硬中断的运行情况;
$ cat /proc/softirqs
CPU0 CPU1
HI: 0 0
TIMER: 811613 1972736
NET_TX: 49 7
NET_RX: 1136736 1506885
BLOCK: 0 0
IRQ_POLL: 0 0
TASKLET: 304787 3691
SCHED: 689718 1897539
HRTIMER: 0 0
RCU: 1330771 1354737
分析
1. 软中断的类型,即第一列的内容,从第一列可以看到,软中断包括了 10 个类别,分别对应不同的工作类型;
2. 同一种软中断在不同 CPU 上的分布情况,即同一行的内容,正常情况下,同一种中断在不同 CPU 上的累积次数应该差不多;
3. TASKLET 在不同 CPU 上的分布并不均匀,TASKLET 是最常用的软中断实现机制,每个 TASKLET 只运行一次就会结束,
并且只在调用它的函数所在的 CPU 上运行;
存在问题,由于只在一个 CPU 上运行导致的调度不均衡,由于不能在多个 CPU 上并行运行带来了性能限制;
软中断实际上是以内核线程的方式运行的,每个 CPU 都对应一个软中断内核线程即 ksoftirqd/CPU 编号,查看这些线程的运行状况的方法
$ ps aux | grep softirq
root 7 0.0 0.0 0 0 ? S Oct10 0:01 [ksoftirqd/0]
root 16 0.0 0.0 0 0 ? S Oct10 0:01 [ksoftirqd/1]
【2】相关工具与命令
【2.1】sar 工具
sar 是一个系统活动报告工具,既可以实时查看系统的当前活动,又可以配置保存和报告历史统计数据;
语法格式
sar [ 选项 ] [ <时间间隔> [ <次数> ] ]
参数说明
-A:所有报告的总和
-b:显示I/O和传递速率的统计信息
-B:显示换页状态
-d:输出每一块磁盘的使用信息
-e:设置显示报告的结束时间
-f:从制定的文件读取报告
-i:设置状态信息刷新的间隔时间
-P:报告每个CPU的状态
-R:显示内存状态
–u:输出cpu使用情况和统计信息
–v:显示索引节点、文件和其他内核表的状态
-w:显示交换分区的状态
-x:显示给定进程的装
-r:报告内存利用率的统计信息
使用示例
查看CPU使用情况 sar -u
结果
%user 用户空间的CPU使用
%nice 改变过优先级的进程的CPU使用率
%system 内核空间的CPU使用率
%iowait CPU等待IO的百分比
%steal 虚拟机的虚拟机CPU使用的CPU
%idle 空闲的CPU
查看平均负载 sar -q
结果
runq-sz 运行队列的长度(等待运行的进程数,每核的CP不能超过3个)
plist-sz 进程列表中的进程(processes)和线程数(threads)的数量
ldavg-1 最后1分钟的CPU平均负载,即将多核CPU过去一分钟的负载相加再除以核心数得出的平均值,5分钟和15分钟以此类推
ldavg-5 最后5分钟的CPU平均负载
ldavg-15 最后15分钟的CPU平均负载
blocked
查看内存使用情况 sar -r
结果
kbmemfree 空闲的物理内存大小
kbmemused 使用中的物理内存大小
%memused 物理内存使用率
kbbuffers 内核中作为缓冲区使用的物理内存大小,kbbuffers和kbcached,这两个值就是free命令中的buffer和cache
kbcached 缓存的文件大小
kbcommit 保证当前系统正常运行所需要的最小内存,即为了确保内存不溢出而需要的最少内存(物理内存+Swap分区)
commit 该值是kbcommit与内存总量(物理内存+swap分区)的一个百分比的值
kbactive
kbinact
kbdirty
查看系统swap分区统计情况 sar -W
结果
pswpin/s 每秒从交换分区到系统的交换页面(swap page)数量
pswpott/s 每秒从系统交换到swap的交换页面(swap page)的数量
查看IO和传递速率 sar -b
结果
tps 磁盘每秒钟的IO总数,等于iostat中的tps
rtps 每秒钟从磁盘读取的IO总数
wtps 每秒钟从写入到磁盘的IO总数
bread/s 每秒钟从磁盘读取的块总数
bwrtn/s 每秒钟此写入到磁盘的块总数
查看磁盘使用情况 sar -d
结果
DEV 磁盘设备的名称,如果不加-p,会显示dev253-0类似的设备名称,因此加上-p显示的名称更直接
tps 每秒I/O的传输总数
rd_sec/s 每秒读取的扇区的总数
wr_sec/s 每秒写入的扇区的总数
avgrq-sz 平均每次次磁盘I/O操作的数据大小(扇区)
avgqu-sz 磁盘请求队列的平均长度
await 从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括请求队列等待时间,单位是毫秒,
等于寻道时间+队列时间+服务时间
svctm I/O的服务处理时间,即不包括请求队列中的时间
%util I/O请求占用的CPU百分比,值越高,说明I/O越慢
统计网络信息 sar -n
-n { <关键词> [,...] | ALL }
关键词可以是:
DEV 网卡
EDEV 网卡 (错误)
NFS NFS 客户端
NFSD NFS 服务器
SOCK Sockets (套接字) (v4)
IP IP 流 (v4)
EIP IP 流 (v4) (错误)
ICMP ICMP 流 (v4)
EICMP ICMP 流 (v4) (错误)
TCP TCP 流 (v4)
ETCP TCP 流 (v4) (错误)
UDP UDP 流 (v4)
SOCK6 Sockets (套接字) (v6)
IP6 IP 流 (v6)
EIP6 IP 流 (v6) (错误)
ICMP6 ICMP 流 (v6)
EICMP6 ICMP 流 (v6) (错误)
UDP6 UDP 流 (v6)
网络接口信息 sar -n DEV
结果
IFACE 本地网卡接口的名称
rxpck/s 每秒钟接受的数据包
txpck/s 每秒钟发送的数据库
rxKB/S 每秒钟接受的数据包大小,单位为KB
txKB/S 每秒钟发送的数据包大小,单位为KB
rxcmp/s 每秒钟接受的压缩数据包
txcmp/s 每秒钟发送的压缩包
rxmcst/s 每秒钟接收的多播数据包
-----------------------------------------------------------------------------------------
网络设备通信失败信息 sar -n EDVE
结果
IFACE 网卡名称
rxerr/s 每秒钟接收到的损坏的数据包
txerr/s 每秒钟发送的数据包错误数
coll/s 当发送数据包时候,每秒钟发生的冲撞(collisions)数,这个是在半双工模式下才有
rxdrop/s 当由于缓冲区满的时候,网卡设备接收端每秒钟丢掉的网络包的数目
txdrop/s 当由于缓冲区满的时候,网络设备发送端每秒钟丢掉的网络包的数目
txcarr/s 当发送数据包的时候,每秒钟载波错误发生的次数
rxfram/s 在接收数据包的时候,每秒钟发生的帧对其错误的次数
rxfifo/s 在接收数据包的时候,每秒钟缓冲区溢出的错误发生的次数
txfifo/s 在发生数据包 的时候,每秒钟缓冲区溢出的错误发生的次数
-----------------------------------------------------------------------------------------
统计socket连接信息 sar -n SOCK
结果
totsck 当前被使用的socket总数
tcpsck 当前正在被使用的TCP的socket总数
udpsck 当前正在被使用的UDP的socket总数
rawsck 当前正在被使用于RAW的skcket总数
if-frag 当前的IP分片的数目
tcp-tw TCP套接字中处于TIME-WAIT状态的连接数量
-----------------------------------------------------------------------------------------
TCP连接的统计 sar -n TCP
结果
active/s 新的主动连接
passive/s 新的被动连接
iseg/s 接受的段
oseg/s 输出的段
【2.2】hping3 工具
hping3 是一个可以构造 TCP/IP 协议数据包的工具,可以对系统进行安全审计、防火墙测试等;
用法: hping3 host [options]
-h --help 显示帮助
-v --version 显示版本
-c --count 发送数据包的数目
-i --interval 发送数据包间隔的时间 (uX即X微秒, 例如: -i u1000)
--fast 等同 -i u10000 (每秒10个包)
--faster 等同 -i u1000 (每秒100个包)
--flood 尽最快发送数据包,不显示回复
-n --numeric 数字化输出,象征性输出主机地址
-q --quiet 安静模式
-I --interface 网卡接口 (默认路由接口)
-V --verbose 详细模式
-D --debug 调试信息
-z --bind 绑定ctrl+z到ttl(默认为目的端口)
-Z --unbind 取消绑定ctrl+z键
--beep 对于接收到的每个匹配数据包蜂鸣声提示
模式选择
default mode TCP // 默认模式是 TCP
-0 --rawip RAWIP模式,原始IP模式,在此模式下HPING会发送带数据的IP头,即裸IP方式,使用RAWSOCKET方式
-1 --icmp ICMP模式,此模式下HPING会发送IGMP应答报,可以用--ICMPTYPE --ICMPCODE选项发送其他类型/模式的ICMP报文
-2 --udp UDP 模式,缺省下,HPING会发送UDP报文到主机的0端口,可以用--baseport--destport--keep选项指定其模式
-8 --scan SCAN mode //扫描模式 指定扫描对应的端口
Example: hping --scan 1-30,70-90 -S www.target.host // 扫描
-9 --listen listen mode // 监听模式
IP 模式
-a --spoof spoof source address //源地址欺骗,伪造IP攻击,防火墙就不会记录真实IP了,当然回应的包也接收不到了
--rand-dest random destionation address mode. see the man. // 随机目的地址模式
--rand-source random source address mode. see the man. // 随机源地址模式
-t --ttl ttl (默认 64) //修改 ttl 值
-N --id id (默认 随机) // hping 中的 ID 值,缺省为随机值
-W --winid 使用win* id字节顺序 //使用winid模式,针对不同的操作系统;UNIX ,WINDIWS的id回应不同的,
这选项可以让你的ID回应和WINDOWS一样
-r --rel 相对id字段(估计主机流量) //更改ID的,可以让ID曾递减输出
-f --frag 拆分数据包更多的frag //分段,可以测试对方或者交换机碎片处理能力,缺省16字节
-x --morefrag 设置更多的分段标志 // 大量碎片,泪滴攻击
-y --dontfrag 设置不分段标志 // 发送不可恢复的IP碎片
-g --fragoff set the fragment offset // 设置断偏移
-m --mtu 设置虚拟最大传输单元, implies --frag if packet size > mtu // 设置虚拟MTU值,当大于mtu的时候分段
-o --tos type of service (default 0x00), try --tos help // tos字段,缺省0x00
-G --rroute includes RECORD_ROUTE option and display the route buffer // 记录IP路由,并显示路由缓冲
--lsrr 松散源路由并记录路由 // 松散源路由
--ssrr 严格源路由并记录路由 // 严格源路由
-H --ipproto 设置IP协议字段,仅在RAW IP模式下使用 //在RAW IP模式里选择IP协议,设置ip协议域,仅在RAW ip模式使用
ICMP 模式
-C --icmptype icmp类型(默认echo请求) // ICMP类型,缺省回显请求
-K --icmpcode icmp代号(默认0) // ICMP代码
--force-icmp 发送所有icmp类型(默认仅发送支持的类型) // 强制ICMP类型
--icmp-gw 设置ICMP重定向网关地址(默认0.0.0.0) // ICMP重定向
--icmp-ts 等同 --icmp --icmptype 13 (ICMP 时间戳) // icmp时间戳
--icmp-addr 等同 --icmp --icmptype 17 (ICMP 地址子网掩码) // icmp子网地址
--icmp-help 显示其他icmp选项帮助 // ICMP帮助
UDP/TCP 模式
-s --baseport base source port (default random) // 缺省随机源端口
-p --destport [+][+]<port> destination port(default 0) ctrl+z inc/dec // 缺省随机源端口
-k --keep keep still source port // 保持源端口
-w --win winsize (default 64) // win的滑动窗口,windows发送字节(默认64)
-O --tcpoff set fake tcp data offset (instead of tcphdrlen / 4)
// 设置伪造tcp数据偏移量(取代tcp地址长度除4)
-Q --seqnum shows only tcp sequence number // 仅显示tcp序列号
-b --badcksum (尝试)发送具有错误IP校验和数据包
-M --setseq 设置TCP序列号
-L --setack 设置TCP的ack
-F --fin set FIN flag
-S --syn set SYN flag
-R --rst set RST flag
-P --push set PUSH flag
-A --ack set ACK flag
-U --urg set URG flag // 一大堆IP抱头的设置。
-X --xmas set X unused flag (0x40)
-Y --ymas set Y unused flag (0x80)
--tcpexitcode 使用last tcp-> th_flags作为退出码
--tcp-mss 启用具有给定值的TCP MSS选项
--tcp-timestamp 启用TCP时间戳选项来猜测HZ/uptime
Common //通用设置
-d --data data size (default is 0) // 发送数据包大小,缺省是0
-E --file 文件数据
-e --sign 添加“签名”
-j --dump 转储为十六进制数据包
-J --print 转储为可打印字符
-B --safe 启用“安全”协议
-u --end 告诉你什么时候--file达到EOF并防止倒回
-T --traceroute traceroute模式(等同使用 --bind 且--ttl 1)
--tr-stop 在traceroute模式下收到第一个不是ICMP时退出
--tr-keep-ttl 保持源TTL固定,仅用于监视一跳
--tr-no-rtt 不要在跟踪路由模式下计算/显示RTT信息 ARS包描述(新增功能,不稳定)
ARS packet description (new, unstable)
--apd-send 发送APD描述数据包(参见docs / APD.txt)
【2.3】tcpdump 工具
tcpdump 是一个常用的网络抓包工具,常用来分析各种网络问题;
参数说明
-i any : 监听所有网络接口
-i eth0 : 监听网卡eth0
-D : 显示所有可用接口
-n : 不解析主机名,可避免DNC查询
-nn : 不解析主机名,也不将协议和端口号转换为名称
-q : quiet,打印更少的协议信息
-t : 不在每行打印时间戳
-tttt : 以2019-12-31 02:03:48.523512这样的可读性最强的形式打印时间戳
-X : 在解析和打印时,除了打印每个数据包的报头外,还以十六进制和ASCII格式打印每个数据包的数据
-XX : 与-X相同,并额外显示以太网报头
-v, -vv, -vvv : 逐渐增加信息的详细程度
-c : 进捕获指定数量的数据包
-s : 以字节为单位定义捕获的包大小
-S : 打印TCP序列号的绝对值
-e : 表示在输出中包含链路层头信息,例如可用于打印以太网和IEEE 802.11等协议的MAC层地址
-E :通过提供加密密钥来解密IPSEC流量
TCPDUMP语法
Syntax: Protocol Direction Host(s) Value Logical Operations Other expression
Example: tcp dst port 80 and tcp dst host 10.2.2.2
Protocol,值可为:ether,fddi,ip,arp,rarp,decnet,lat,sca,moprc,mopdl,tcp,udp,如果未指定,则默认使用所有协议
Direction,值可为: src, dst, src and dst, src or dst,如果不指定,则默认使用 “src or dst”
Host(s),值可为: net, port, host, portrange,如果不指定,则默认使用 “host”
Logical Operations,值可为: not, and, or,“not”优先级最高,”or”和”and” 优先级相同
【3】案例分析
终端一
运行试验环境
# 运行Nginx服务并对外开放80端口
$ docker run -itd --name=nginx -p 80:80 nginx
终端二
使用 curl 访问 Nginx 监听的端口,确认 Nginx 正常启动
$ curl http://192.168.0.30/
<!DOCTYPE html>
<html>
<head>
<title>Welcome to nginx!</title>
...
-------------------------------------------------------------------------------------------
运行 hping3 命令,来模拟 Nginx 的客户端请求
# -S参数表示设置TCP协议的SYN(同步序列号),-p表示目的端口为80
# -i u100表示每隔100微秒发送一个网络帧
# 192.168.0.30 为 Nginx 所在虚拟机 IP
# 注:如果在实践过程中现象不明显,可以尝试把100调小,比如调成10甚至1
$ hping3 -S -p 80 -i u100 192.168.0.30
终端三
# top运行后按数字1切换到显示所有CPU
$ top
top - 10:50:58 up 1 days, 22:10, 1 user, load average: 0.00, 0.00, 0.00
Tasks: 122 total, 1 running, 71 sleeping, 0 stopped, 0 zombie
%Cpu0 : 0.0 us, 0.0 sy, 0.0 ni, 96.7 id, 0.0 wa, 0.0 hi, 3.3 si, 0.0 st
%Cpu1 : 0.0 us, 0.0 sy, 0.0 ni, 95.6 id, 0.0 wa, 0.0 hi, 4.4 si, 0.0 st
...
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
7 root 20 0 0 0 0 S 0.3 0.0 0:01.64 ksoftirqd/0
16 root 20 0 0 0 0 S 0.3 0.0 0:01.97 ksoftirqd/1
2663 root 20 0 923480 28292 13996 S 0.3 0.3 4:58.66 docker-containe
3699 root 20 0 0 0 0 I 0.3 0.0 0:00.13 kworker/u4:0
3708 root 20 0 44572 4176 3512 R 0.3 0.1 0:00.07 top
1 root 20 0 225384 9136 6724 S 0.0 0.1 0:23.25 systemd
2 root 20 0 0 0 0 S 0.0 0.0 0:00.03 kthreadd
...
分析
1. 平均负载全是 0,就绪队列里面只有一个进程(1 running);
2. 每个 CPU 的使用率都挺低,最高的 CPU1 的使用率也只有 4.4% 并不算高;
3. 进程列表 CPU 使用率最高的进程也只有 0.3% 并不高;
两个 CPU 的使用率虽然分别只有 3.3% 和 4.4%,但都用在了软中断上;
从进程列表上也可以看到,CPU 使用率最高的也是软中断进程 ksoftirqd,可见可能是软中断导致性能问题;
终端四
$ watch -d cat /proc/softirqs
CPU0 CPU1
HI: 0 0
TIMER: 1083906 2368646
NET_TX: 53 9
NET_RX: 1550643 1916776
BLOCK: 0 0
IRQ_POLL: 0 0
TASKLET: 333637 3930
SCHED: 963675 2293171
HRTIMER: 0 0
RCU: 1542111 1590625
分析
通过 /proc/softirqs 文件内容的变化情况,可见
TIMER(定时中断)、NET_RX(网络接收)、SCHED(内核调度)、RCU(RCU 锁)等这几个软中断都在不停变化
其中,NET_RX 即网络数据包接收软中断的变化速率最快,
而其他几种类型的软中断,是保证 Linux 调度、时钟和临界区保护这些正常工作所必需的,所以它们有一定的变化倒是正常的;
-----------------------------------------------------------------------------------------
# -n DEV 表示显示网络收发的报告,间隔1秒输出一组数据
$ sar -n DEV 1
15:03:46 IFACE rxpck/s txpck/s rxkB/s txkB/s rxcmp/s txcmp/s rxmcst/s %ifutil
15:03:47 eth0 12607.00 6304.00 664.86 358.11 0.00 0.00 0.00 0.01
15:03:47 docker0 6302.00 12604.00 270.79 664.66 0.00 0.00 0.00 0.00
15:03:47 lo 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00
15:03:47 veth9f6bbcd 6302.00 12604.00 356.95 664.66 0.00 0.00 0.00 0.05
分析
1. 对网卡 eth0 来说,每秒接收的网络帧数比较大,达到了 12607,而发送的网络帧数则比较小,只有 6304;
每秒接收的千字节数只有 664 KB,而发送的千字节数更小,只有 358 KB;
2. docker0 和 veth9f6bbcd 的数据跟 eth0 基本一致,只是发送和接收相反,发送的数据较大而接收的数据较小;
这是 Linux 内部网桥转发导致的,即系统把 eth0 收到的包转发给 Nginx 服务即可;
分析 eth0 :接收的 PPS 比较大,达到 12607,而接收的 BPS 却很小,只有 664 KB;
计算网络帧的大小 664*1024/12607 = 54 字节,说明平均每个网络帧只有 54 字节,即小包问题
终端五
tcpdump 命令抓包 通过 -i eth0 选项指定网卡 eth0,并通过 tcp port 80 选项指定 TCP 协议的 80 端口
# -i eth0 只抓取eth0网卡,-n不解析协议名和主机名
# tcp port 80表示只抓取tcp协议并且端口号为80的网络帧
$ tcpdump -i eth0 -n tcp port 80
15:11:32.678966 IP 192.168.0.2.18238 > 192.168.0.30.80: Flags [S], seq 458303614, win 512, length 0
...
分析
192.168.0.2.18238 > 192.168.0.30.80,表示网络帧从 192.168.0.2 的 18238 端口发送到 192.168.0.30 的 80 端口;
Flags [S] 则表示这是一个 SYN 包;
参考致谢
本博客为博主的学习实践总结,并参考了众多博主的博文,在此表示感谢,博主若有不足之处,请批评指正。
【4】hping3 使用详解