进程管理工具和系统性能工具

最新推荐文章于 2024-09-19 17:16:48 发布

Hskds

最新推荐文章于 2024-09-19 17:16:48 发布

阅读量712

点赞数

分类专栏： linux操作系统相关文章标签：命令

本文链接：https://blog.csdn.net/wdirdo/article/details/100008565

版权

linux操作系统相关专栏收录该内容

15 篇文章 0 订阅

订阅专栏

进程管理工具和系统性能工具

主要介绍命令：命令使用可以查询帮助，因此只简绍常见用法，具体了解到需要某个功能能想得这些命令实现即可

Linux系统状态的查看及管理工具：pstree, ps, pidof, pgrep, top, htop, glance, pmap, vmstat, dstat, kill, pkill, job, bg, fg, nohup

进程管理工具

pstree命令

pstree - 显示进程树
Usage: pstree option

ps命令

ps - 显示当前进程的快照
ps [OPTION]…
支持三种选项：
UNIX选项如-A -e
BSD选项如a
GNU选项如–help
选项：默认显示当前终端中的进程
• a 选项包括所有终端中的进程
• x 选项包括不链接终端的进程
• u 选项显示进程所有者的信息 (有效用户)
• f 选项显示进程树,相当于 --forest
• k|–sort 属性对属性排序,属性前加- 表示倒序
• o 属性… 选项显示定制的信息 pid、cmd、%cpu、%mem
• L 显示支持的属性列表
UNIX选项
• -C cmdlist 指定命令，多个命令用，分隔
• -L 显示线程
• -e 显示所有进程，相当于-A
• -f 显示完整格式程序信息
• -F 显示更完整格式的进程信息
• -H 以进程层级格式显示进程相关信息
• -u userlist 指定有效的用户ID或名称
• -U userlist 指定真正的用户ID或名称
• -g gid或groupname 指定有效的gid或组名称
• -G gid或groupname 指定真正的gid或组名称
• -p pid 显示指pid的进程
• --ppid pid 显示属于pid的子进程
• -t ttylist 指定tty,相当于 t
• -M 显示SELinux信息，相当于Z
ps 输出属性※※※
• VSZ: Virtual memory SiZe，虚拟内存集，线性内存 (CPU承诺给进程的内存空间)
• RSS: ReSident Size, 常驻内存集（以K位单位）
• %CPU：占用PCU的百分比（单核100%，双核200%，与CPU核数有关）
• %MEM：内存占用百分比
• TTY：?表示与终端无关
• TIME：CPU分配的时间片的总和
• ni: nice值
• pri: priority 优先级
• rtprio: 实时优先级
• psr: processor CPU编号
• STAT：进程状态
R：running
S: interruptable sleeping
D: uninterruptable sleeping
T: stopped
Z: zombie
+: 前台进程
l: 多线程进程
L：内存分页并带锁
N：低优先级进程
<: 高优先级进程
s: session leader，会话（子进程）发起者
常用组合：
aux
-ef
-eFH
-eo pid,tid,class,rtprio,ni,pri,psr,pcpu,stat,comm axo stat,euid,ruid,tty,tpgid,sess,pgrp,ppid,pid,pcpu,comm

PS示例：
    ~]#  ps aux k -%mem 按照内存占用‘ 倒序 ’排列
    ~]#  ps aux k %mem  正序排
使用watch实用程序执行重复的输出以实现对就程进行实时的监视，如下面的命令显示每秒钟的监视
watch -n 1 'ps -eo pid,ppid,cmd,%mem,%cpu --sort=-%mem | head'

ps查看进程优先级
① ni: nice值：指nice优先级
② pri: priority 优先级：与系统优先级反过来的，即此值越大优先级越大
此处优先级与系统优先级的对应关系：
ps pri优先级：139----0对应于系统优先级0----139
③ rtprio: 实时优先级
④ psr: processor CPU编号
查看进程在哪个CPU上执行，但是进程不会固定在某一CPU上执行
不固定CPU执行带来的问题：缓存失效

    一、CPU绑定：taskset 命令，指定命令运行在哪个CPU
    
[root@centos7 ~]# ps axo cmd,psr,user,pid | grep '^ping'
ping 127.0.0.1 -f             1 root      15218
[root@centos7 ~]# ps axo cmd,psr,user,pid | grep '^ping'
ping 127.0.0.1 -f             2 root      15218
      可以看到ping命令不会固定在某个CPU上执行，此时可以使用taskset绑定CPU

[root@centos7 ~]# taskset -p `pidof ping`
pid 15218's current affinity mask: f
[root@centos7 ~]# 因为为4个PCU，表现位1111=f 即4个CPU都可以运行

    现在我希望ping只能跑在0，3这俩CPU上，相关命令：

[root@centos7 ~]# taskset -cp 0,3 `pidof ping`
pid 15218's current affinity list: 0-3
pid 15218's new affinity list: 0,3
      表现为:0000
            0101 --- 9
        4个CPU：表现为1248  对应CPU 0123（4位4对应）
        当然进程结束，对应的进程编号就。。。。
[root@centos7 ~]# taskset -p `pidof ping`
pid 15218's current affinity mask: 9

    查看：
[root@centos7 ~]# ps axo cmd,psr,user,pid | grep '^ping'
ping 127.0.0.1 -f             0 root      15218
[root@centos7 ~]# ps axo cmd,psr,user,pid | grep '^ping'
ping 127.0.0.1 -f             3 root      15218
[root@centos7 ~]# ps axo cmd,psr,user,pid | grep '^ping'
ping 127.0.0.1 -f             3 root      15218
[root@centos7 ~]# ps axo cmd,psr,user,pid | grep '^ping'
ping 127.0.0.1 -f             0 root      15218


 二、CPU绑定：(与软件相关)绑定CPU：Nginx

进程优先级调整

进程优先级调整
静态优先级：100-139
进程默认启动时的nice值为0，优先级为120
只有根用户才能降低nice值（提高优先性）
nice命令
nice [OPTION] [COMMAND [ARG]…]

~]# nice -n -10 ping 127.0.0.1

renice命令
renice [-n] priority pid…

修改进程优先级

查看
ps axo pid,comm,ni

搜索进程

pgrep命令

最灵活：ps 选项 | 其它命令
按预定义的模式：pgrep
USAGE：pgrep [options] pattern
-u uid: effective user，生效者
-U uid: real user，真正发起运行命令者
-t terminal: 与指定终端相关的进程
-l: 显示进程名
-a: 显示完整格式的进程名
-P pid: 显示指定进程的子进程

pidof命令

按确切的程序名称：/sbin/pidof
pidof bash

      可见pidof是/usr/sbin/，但是有图中可见，虽然是软链接但是功能不一样，
总结：因此软链接与原文件功能不一定完全相同
表现：可以根据当前名称执行什么操作，最典型的就是busybox，什么软链接就对应什么样的功能 

  [root@centos7 ~]# ll `which pidof`
  lrwxrwxrwx. 1 root root 18 Jul 17 16:53 /usr/sbin/pidof -> /usr/sbin/killall5

uptime命令

uptime 和 w （w命令的首行就是uptime命令的输出）
显示当前时间，系统已启动的时间、当前上线人数，系统平均负载（1、5、15分钟的平均负载，一般不会超过1，超过5时建议警报）
系统平均负载:
指在特定时间间隔内运行队列中的平均进程数
通常每个CPU内核的当前活动进程数不大于3，那么系统的性能良好。如果每个CPU内核的任务数大于5，那么此主机的性能有严重问题
如果linux主机是1个双核CPU，当Load Average 为6的时候说明机器已经被充分使用

 ~]# uptime  
 19:17:40 up   10:22,   2 users,    load average: 0.08, 0.04, 0.05
  当前系统时间  开机时间  2个用户登录  系统平均负载 1min  5min 10min
系统平均负载值越大，系统越忙，与CPU内核有关，相当于在一定时间以内没有完成的任务队列的长度

/proc/uptime 包括两个值，单位 s
系统启动时长
空闲进程的总时长（空闲进程的总时长按总的CPU核数计算）

计算系统运行的时长：（有时利用此值做计算）
~]# echo "scale=2;`cat /proc/uptime | cut -d' ' -f1`/3600" | bc
10.88

有空闲进程的总时长可知CPU大多时间都处于空闲状态，即CPU的利用不高，因此目前一般都采用虚拟化，可以充分实现资源调度，虚拟化使计算机的处理能力自动进行调整，让计算的处理能力充分发挥，节约资源。

top命令

显示Linux进程
top命令选项：
-d # 指定刷新时间间隔，默认为3秒
-b 全部显示所有进程
-n # 刷新多少次后退出
-H 线程模式，
示例：top -H -p pidof mysqld
top：有许多内置命令
排序：
P：以占据的CPU百分比,%CPU
M：占据内存百分比,%MEM
T：累积占据CPU时长,TIME+

首部信息显示：
uptime信息：l命令
tasks及cpu信息：t命令

cpu分别显示：1 (数字)
memory信息：m命令

退出命令：q
修改刷新时间间隔：s
终止指定进程：k
保存文件：W
栏位信息简介
us：用户空间
sy：内核空间
ni：调整nice时间
id：空闲
wa：等待IO时间
hi：硬中断
si：软中断（模式切换）
st：虚拟机偷走的时间

%CPU：CPU的分配情况
%Cpu(s): us, sy, ni, id, wa, hi, si, st
us：用户空间，用户空间所占的比例应该大于内核空间所占比例才合理
sy：内核空间，因为真正产生生产力的是应用程序---工作在用户空间
ni：nice优先级调整
id：(idle)(空闲)
wa：(wait)(等待)有些进程在运行过程中需要等待资源的访问
hi：硬中断
si：软中断
st：(steal)被盗取的时间片,即虚拟机使用的时间

htop命令

htop命令：EPEL源
选项：
-d #: 指定延迟时间；
-u UserName: 仅显示指定用户的进程
-s COLUME: 以指定字段进行排序
子命令：
s：跟踪选定进程的系统调用
l：显示选定进程打开的文件列表
a：将选定的进程绑定至某指定CPU核心
t：显示进程树

内存空间

free命令

free [OPTION]
-b 以字节为单位
-m 以MB为单位
-g 以GB为单位
-h 易读格式
-o 不显示-/+buffers/cache行
-t 显示RAM + swap的总和
-s n 刷新间隔为n秒
-c n 刷新n次后即退出

buffer：通常是用来写数据时使用（写数据先写至缓冲区）
cache：读数据时使用

centos7显示效果
[root@centos7-17 ~]# free -h
       total  used  free  shared  buff/cache   available
Mem:   972M   85M   675M  1.1M    211M         713M
Swap:   2.0G  65M   1.9G

centos6显示效果
[root@centos6 ~]#free -h
             total  used  free   shared  buffers  cached
Mem:          979M  304M  675M    264K   62M      70M
-/+ buffers/cache:  170M  809M
Swap:         2.0G   0B   2.0G

vmstat命令

vmstat命令：虚拟内存信息
vmstat [options] [delay [count]]
选项：-s: 显示内存的统计数据
vmstat 2 5 ：2S执行一次执行5次退出
vmstat 1 ：1秒钟执行一次

[root@centos7 ~]# vmstat
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 1  0      0 1121448   2092 542164    0    0     3     0   13   17  0  0 100  0  0

其中si,so,bi,bo中i表示：input；o表示：output。但都是以内存为参照
swap si：进内存空间即出swap空间
swap so：出内存空间即进swap空间

in: interrupts 中断速率，包括时钟
cs: context switch 进程切换速率

procs:
r：可运行（正运行或等待运行）进程的个数，和核心数有关
b：处于不可中断睡眠态的进程个数(被阻塞的队列的长度)
memory：
swpd: 交换内存的使用总量
free：空闲物理内存总量
buffer：用于buffer的内存总量
cache：用于cache的内存总量
swap:
si：从磁盘交换进内存的数据速率(kb/s)
so：从内存交换至磁盘的数据速率(kb/s)
io：
bi：从块设备读入数据到系统的速率(kb/s)
bo: 保存数据至块设备的速率
system：
in: interrupts 中断速率，包括时钟
cs: context switch 进程切换速率
cpu：
us:Time spent running non-kernel code
sy: Time spent running kernel code
id: Time spent idle. Linux 2.5.41前,包括IO-wait time.
wa: Time spent waiting for IO. 2.5.41前，包括in idle.
st: Time stolen from a virtual machine. 2.6.11前, unknown.

系统监控工具

统计CPU和设备IO信息iostat

iostat：统计CPU和设备IO信息
示例：iostat 1 10

显示带宽使用情况：iftop

iftop - 显示带宽使用情况，epel
示例：iftop -n -i eth1
-i：接口
-n：以数字方式显示

进程对应的内存映射：pmap

pmap命令 - 进程对应的内存映射
pmap [options] pid […]
-x: 显示详细格式的信息
示例：pmap 1
另外一种实现
cat /proc/PID/maps

如果发现某应用程序的某个软件模块占用内存空间不断增长，说明此程序某模块出现问题

strace 跟踪系统调用和信号

strace - 跟踪系统调用和信号
可以用来分析程序系统调用

ltrace 查询调用的函数库

ltrace - 查询某程序运行时调用的函数库

glances命令 CLI curses的监控工具

glances - 基于curses的跨平台系统监控工具（跨网络监控）
glances [-bdehmnrsvyz1] [-B bind] [-c server] [-C conffile] [-p port] [-P password] [–password] [-t refresh] [-f file] [-o output]
常用选项：
-b: 以Byte为单位显示网卡数据速率
-d: 关闭磁盘I/O模块
-f /path/to/somefile: 设定输入文件位置
-o {HTML|CSV}：输出格式
-m: 禁用mount模块
-n: 禁用网络模块
-t #: 延迟时间间隔
-1：每个CPU的相关数据单独显示
C/S模式下运行glances命令
服务器模式：
glances -s -B IPADDR
IPADDR: 指明监听的本机哪个地址
客户端模式：
glances -c IPADDR
IPADDR：要连入的服务器端地址
内建命令：
a Sort processes automatically
l Show/hide logs
c Sort processes by CPU%
b Bytes or bits for network I/O
m Sort processes by MEM%
w Delete warning logs
…(一系列内部命令)
注意：
考虑安全问题，因此需要定义防火墙策略，只有指定的主机才能连接61209端口，限定特定的人才能远程查看服务器的信息

dstat命令：生成系统资源统计

dstat - 生成系统资源统计数据的通用工具
dstat命令：系统资源统计,代替vmstat,iostat
dstat [-afv] [options…] [delay [count]]
-c 显示cpu相关信息
-C #,#,…,total
-d 显示disk相关信息
-D total,sda,sdb,…
-g 显示page相关统计数据
-m 显示memory相关统计数据
-n 显示network相关统计数据
-p 显示process相关统计数据
-r 显示io请求相关的统计数据
-s 显示swapped相关的统计数据

iotop ：IO监听器

iotop - 显示某进程在磁盘的读写情况
当发现磁盘非常繁忙，想知道哪个进程导致磁盘IO的繁忙：iotop
iotop命令是一个用来监视磁盘I/O使用状况的top类工具iotop具有与top相似的UI，其中包括PID、用户、I/O、进程等相关信息，可查看每个进程是如何使用IO
iotop输出
第一行：Read和Write速率总计
第二行：实际的Read和Write速率
第三行：参数如下：
线程ID（按p切换为进程ID）
优先级
用户
磁盘读速率
磁盘写速率
swap交换百分比
IO等待所占的百分比
线程/进程命令
-o, --only只显示正在产生I/O的进程或线程，除了传参，可以在运行过程中按o
生效
-b, --batch非交互模式，一般用来记录日志
-n NUM, --iter=NUM设置监测的次数，默认无限。在非交互模式下很有用
-d SEC, --delay=SEC设置每次监测的间隔，默认1秒，接受非整形数据例如1.1
-p PID, --pid=PID指定监测的进程/线程
-u USER, --user=USER指定监测某个用户产生的I/O
-P, --processes仅显示进程，默认iotop显示所有线程
-a, --accumulated显示累积的I/O，而不是带宽
-k, --kilobytes使用kB单位，而不是对人友好的单位。在非交互模式下，脚本
编程有用
-t, --time 加上时间戳，非交互非模式
-q, --quiet 禁止头几行，非交互模式，有三种指定方式
-q 只在第一次监测时显示列名
-qq 永远不显示列名
-qqq 永远不显示I/O汇总
交互按键
left和right方向键：改变排序
r：反向排序
o：切换至选项–only
p：切换至–processes选项
a：切换至–accumulated选项
q：退出
i：改变线程的优先级

nload 查看网络实时吞吐量

nload - 显示当前的网络使用情况 (EPEL源)
nload是一个实时监控网络流量和带宽使用情况，以数值和动态图展示进出的流量情况
界面操作
上下方向键、左右方向键、enter键或者tab键都就可以切换查看多个网卡的流量情况
按 F2 显示选项窗口
按 q 或者 Ctrl+C 退出 nload
设置刷新间隔：默认刷新间隔是100毫秒，可通过 -t命令设置刷新时间（单位是毫秒）
nload -t 500 eth0
设置单位：显示两种单位一种是显示Bit/s、一种是显示Byte/s，默认是以Bit/s，也可不
显示/s
-u h|b|k|m|g|H|B|K|M|G 表示的含义：
h: auto,
b: Bit/s,
k: kBit/s,
m: MBit/s,
H: auto,
B: Byte/s,
K: kByte/s,
M: MByte/s
nload -u M eth0
示例：
nload：默认只查看第一个网络的流量进出情况
nload eth0 eth1：在nload后面指定网卡，可以指定多个

lsof ：list open files查看当前系统文件的工具

lsof
命令参数
-a：列出打开文件存在的进程
-c<进程名>：列出指定进程所打开的文件
-g：列出GID号进程详情
-d<文件号>：列出占用该文件号的进程
+d<目录>：列出目录下被打开的文件
+D<目录>：递归列出目录下被打开的文件
-n<目录>：列出使用NFS的文件
-i<条件>：列出符合条件的进程(4、6、协议、:端口、 @ip )
-p<进程号>：列出指定进程号所打开的文件
-u：列出UID号进程详情
-h：显示帮助信息
-v：显示版本信息
-n: 不反向解析网络名字
lsof示例

进程管理
查看由登陆用户启动而非系统启动的进程
lsof /dev/pts/1
指定进程号，可以查看该进程打开的文件
lsof -p 9527
文件管理
查看指定程序打开的文件
lsof -c httpd
查看指定用户打开的文件
lsof -u root | more
查看指定目录下被打开的文件
lsof +D /var/log/
lsof +d /var/log/
参数+D为递归列出目录下被打开的文件，参数+d为列出目录下被打开的文件

查看所有网络连接
lsof -i –n
lsof -i@127.0.0.1
通过参数-i查看网络连接的情况，包括连接的ip、端口等以及一些服务的连接情况，例如： sshd等。也可以通过指定ip查看该ip的网络连接情况
查看端口连接情况
lsof -i :80 -n
通过参数-i:端口可以查看端口的占用情况，-i参数还有查看协议，ip的连接情况等
查看指定进程打开的网络连接
lsof -i –n -a -p 9527
参数-i、-a、-p等，-i查看网络连接情况，-a查看存在的进程，-p指定进程
查看指定状态的网络连接
lsof -n -P -i TCP -s TCP:ESTABLISHED
-n:no host names, -P:no port names,-i TCP指定协议，-s指定协议状态通过多个参数可以清晰的查看网络连接情况、协议连接情况等
恢复删除文件（此文件正在被某程序使用未关闭即占用的磁盘空间未释放）
lsof |grep /var/log/messages
lsof |grep delete
rm -f /var/log/messages
lsof |grep /var/log/messages
cat /proc/653/fd/6
cat /proc/653/fd/6 > /var/log/messages

kill命令

kill 其后需要跟进程pid,当有多个同名进程时，使用kill不方便eg：给进程名为httpd进程同时发信号
kill命令：向进程发送控制信号，以实现对进程管理,每个信号对应一个数字，信号名称以SIG开头（可省略），不区分大小写
显示当前系统可用信号： kill –l 或者 trap -l
常用信号：man 7 signal
1) SIGHUP 无须关闭进程而让其重读配置文件
2) SIGINT 中止正在运行的进程；相当于Ctrl+c
3) SIGQUIT 相当于ctrl+\
9) SIGKILL 强制杀死正在运行的进程
15) SIGTERM 终止正在运行的进程
18) SIGCONT 继续运行
19) SIGSTOP 后台休眠
指定信号的方法 :
(1) 信号的数字标识：1, 2, 9
(2) 信号完整名称：SIGHUP
(3) 信号的简写名称：HUP
按PID：kill [-SIGNAL] pid …
kill –n SIGNAL pid
kill –s SIGNAL pid

按名称：killall [-SIGNAL] comm…

按模式：pkill [options] pattern

-SIGNAL
-u uid: effective user，生效者
-U uid: real user，真正发起运行命令者
-t terminal: 与指定终端相关的进程
-l: 显示进程名（pgrep可用）
-a: 显示完整格式的进程名（pgrep可用）
-P pid: 显示指定进程的子进程

示例：
1） SIGHUP
在centos6上使用http修改其配置文件，然后发送1）SIGHUP信号

    修改了html的DcoumentRoot至/data/www/目录，然后发SIGHUP信号，无需重启服务
    [root@centos6 ~]#pstree -p | grep httpd
            |-httpd(2424)-+-httpd(2427)
            |    .....（子进程略）             
    [root@centos6 ~]#kill -1 2424
    [root@centos6 ~]#  curl 192.168.38.6
    /data/www/index.html

2)   &emsp; SIGINT	中止正在运行的进程；相当于Ctrl+c  

3)   &emsp;SIGQUIT	相当于ctrl+\   相当于qiut

15)  &emsp; SIGTERM	终止正在运行的进程（正常关闭）      
    kill 默认为15信号
    但是并不是所有命令都能发送15信号：eg：bash

9)   &emsp; SIGKILL	强制杀死正在运行的进程   
    kill -9  可以强制杀死bash

    kill -9 还是不能杀死systemd等进程  

18)  &emsp; SIGCONT	继续运行  

19)  &emsp; SIGSTOP	后台休眠 

0)   发送0信号 对进程做错误检查
 If sig is 0, then no signal is sent, but error checking is still performed. （man kill ）

可对某些服务进行定期错误检查
  即killall -0 serverName | kill -0 主进程pid
  若其检查的返回值$?=0，进程无异样
  若其检查的返回值$?非0，则重启进程
结合计划任务，实现定期检查，或者定期重启某些服务（计划任务）
eg：killall -0 httpd &> /dev/null || systemctl restart httpd