对linux系统中cpu、内存、磁盘IO异常定位的方式进行梳理总结如下:
1、先记录下基本的cpu信息查询方式:
总核数 = 物理CPU个数 X 每颗物理CPU的核数
总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数
查看物理CPU个数
cat /proc/cpuinfo| grep “physical id”| sort| uniq| wc -l
查看每个物理CPU中core的个数(即核数)
cat /proc/cpuinfo| grep “cpu cores”| uniq
查看逻辑CPU的个数
cat /proc/cpuinfo| grep “processor”| wc -l
#查看CPU信息(型号)
cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c
2、cpu使用情况以及高使用率进程查询:
2.1、整体查看cpu的负载情况,load average数不要超过超过逻辑cpu的个数太高
uptime
11:14:13 up 246 days, 6:00, 4 users, load average: 0.07, 0.14, 0.09
2.2、vmstat查看cpu的us、sy、id、wa 使用情况 也可查询内存使用情况
vmstat 2 5
procs -----------memory---------- —swap-- -----io---- --system-- -----cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
0 0 0 597864 43364 1183452 0 0 6 27 1 0 1 2 97 0 0
0 0 0 597336 43376 1183476 0 0 0 76 2155 7076 2 3 87 8 0
0 0 0 597336 43376 1183476 0 0 0 84 2128 7223 2 2 97 0 0
0 0 0 594160 43384 1183804 0 0 0 44 2086 6940 4 3 94 0 0
0 0 0 595788 43392 1183932 0 0 0 28 2308 7650 1 3 91 5 0
2.3、top 查询cpu的详细使用情况和占cpu较高的进程
top
top - 11:15:37 up 246 days, 6:01, 4 users, load average: 0.05, 0.12, 0.09
Tasks: 194 total, 1 running, 193 sleeping, 0 stopped, 0 zombie
Cpu(s): 1.4%us, 1.8%sy, 0.0%ni, 96.7%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 3786980k total, 3191104k used, 595876k free, 43280k buffers
Swap: 6291452k total, 0k used, 6291452k free, 1182756k cached
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
2186 root 20 0 466m 39m 3808 S 5.9 1.1 16911:21 hekad
1 root 20 0 19356 804 496 S 0.0 0.0 0:03.77 init
2 root 20 0 0 0 0 S 0.0 0.0 0:00.13 kthreadd
通过此处可以找到使用cpu最高的进程pid。
3.4、top -Hp pid查看使用cpu最高的线程数,然后打印对应java进程的threaddump,找出对应线程的执行代码。需要将tid准换成16进制的线程号
3、查询内存使用
3.1、free -m查询内存使用情况
total used free shared buffers cached
Mem: 3698 3133 564 0 43 1170
-/+ buffers/cache: 1919 1779
Swap: 6143 0 6143
第一部分Mem行:
total 内存总数: 1002M
used 已经使用的内存数: 769M
free 空闲的内存数: 232M
shared 当前已经废弃不用,总是0
buffers Buffer 缓存内存数: 62M
cached Page 缓存内存数:421M
关系:total(1002M) = used(769M) + free(232M)
第二部分(-/+ buffers/cache):
(-buffers/cache) used内存数:286M (指的第一部分Mem行中的used – buffers – cached)
(+buffers/cache) free内存数: 715M (指的第一部分Mem行中的free + buffers + cached)
可见-buffers/cache反映的是被程序实实在在吃掉的内存,而+buffers/cache反映的是可以挪用的内存总数.
第三部分是指交换分区,当used为0时说明内存不紧张,数字较小时内存有点紧张,较大时说明内存已不够用。
3.2、vmstat 2 5也可查看内存使用情况。
3.3、top命令进入后输入M按内存使用排序,可以找到占用内存较高进程。
4、IO使用情况定位
4.1、top查询wa的使用情况,查看io占用cpu是否较高。
4.2、iostat -x 2 5查看各磁盘的%util情况,越高说明磁盘对应的io越高。
[serviceop@SZA-L0016461 ~]$ iostat -x 2 5
Linux 2.6.32-573.el6.x86_64 (SZA-L0016461) 2017年04月27日 _x86_64_ (2 CPU)
avg-cpu: %user %nice %system %iowait %steal %idle
1.38 0.00 1.85 0.05 0.00 96.72
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sda 0.05 6.58 0.12 3.43 8.17 80.10 24.84 0.00 1.39 0.59 0.21
dm-0 0.00 0.00 0.14 7.67 7.66 61.39 8.84 0.04 4.54 0.15 0.12
dm-1 0.00 0.00 0.00 0.00 0.00 0.00 8.00 0.00 0.46 0.42 0.00
dm-2 0.00 0.00 0.03 0.56 0.35 4.51 8.24 0.00 7.06 0.11 0.01
dm-3 0.00 0.00 0.00 0.52 0.15 4.15 8.22 0.00 1.91 0.43 0.02
dm-4 0.00 0.00 0.00 0.00 0.00 0.00 2.57 0.00 1.89 1.45 0.00
dm-5 0.00 0.00 0.00 1.26 0.00 10.05 8.00 0.00 1.16 0.56 0.07
sdb 0.00 2.55 0.10 0.66 16.00 25.79 55.24 0.00 3.06 1.19 0.09
dm-6 0.00 0.00 0.10 3.22 16.00 25.79 12.62 0.08 22.76 0.27 0.09
4.3、iotop直接查看IO较高的进程号,当iotop命令不可以用时使用for x in seq 1 1 10
; do ps -eo state,pid,cmd | grep “^D”; echo “----”; sleep 5; done查询IO等待的对应进程
for x in seq 1 1 10
; do ps -eo state,pid,cmd | grep “^D”; echo “----”; sleep 5; done
D 248 [jbd2/dm-0-8]
D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp
4.4、cat /proc/pid/io查看对应进程使用的io情况
cat /proc/16528/io
rchar: 48752567
wchar: 549961789
syscr: 5967
syscw: 67138
read_bytes: 49020928
write_bytes: 549961728
cancelled_write_bytes: 0
4.5、lsof -p pid 或 ls /proc/pid/fd查看对应的应用目录
lsof -p 16528
COMMANDPIDUSERFDTYPEDEVICESIZE/OFFNODENAME
bonnie++ 16528 rootcwdDIR 252,0 4096 130597 /tmp
bonnie++ 16528 root 8u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 9u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 10u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 11u REG 252,0 501219328 131869 /tmp/Bonnie.16528
bonnie++ 16528 root 12u REG 252,0 501219328 131869 /tmp/Bonnie.16528
4.5、fd /tmp查看对应的卷名
df /tmp
Filesystem 1K-blocksUsedAvailableUse% Mountedon
/dev/mapper/workstation-root 7667140 2628608 4653920 37% /
4.6、是fdisk -l 或pvdisplay 查看对应的磁盘,来确认是否与io高的磁盘一致。
业务级IO监控
ioprofile
ioprofile 命令本质上是 lsof + strace, 具体下载可见 http://code.google.com/p/maatkit/
ioprofile 可以回答你以下三个问题:
1 当前进程某时间内,在业务层面读写了哪些文件(read, write)?
2 读写次数是多少?(read, write的调用次数)
3 读写数据量多少?(read, write的byte数)
假设某个行为会触发程序一次IO动作,例如: “一个页面点击,导致后台读取A,B,C文件”
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数软件测试工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年软件测试全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上软件测试开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加V获取:vip1024b (备注软件测试)
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**
如果你觉得这些内容对你有帮助,可以添加V获取:vip1024b (备注软件测试)
[外链图片转存中…(img-morVcY7d-1712883955636)]
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!