linux：进程管理与SELinux

-柚子皮-

已于 2023-09-24 21:09:53 修改

阅读量4.5k

点赞数 1

分类专栏： Linux 文章标签：系统设置管理内存

于 2014-04-10 19:10:53 首次发布

本文链接：https://blog.csdn.net/pipisorry/article/details/23376005

版权

Linux 专栏收录该内容

41 篇文章

订阅专栏

http://blog.csdn.net/pipisorry/article/details/23376005

工作管理job control

登陆 bash 后，想要一边复制文件、一边进行数据搜寻、一边进行编译，还可以一边进行 vim 程序撰写！当然我们可以重复登陆那六个命令行的终端机环境中，不过，也能在一个 bash 内达成。

job control 的管理

直接将指令丢到背景中“执行”的 &

将“目前”的工作丢到背景中“暂停”：[ctrl]-z

[1]+ Stopped vim ~/.bashrc

在 vim 的一般模式下，按下 [ctrl] 及 z 这两个按键，屏幕上会出现 [1] ，表示这是第一个工作，而那个 + 代表最近一个被丢进背景的工作，且目前在背景下默认会被取用的那个工作（与 fg 这个指令有关）！而那个 Stopped 则代表目前这个工作的状态。在默认的情况下，使用 [ctrl]-z 丢到背景当中的工作都是“暂停”的状态喔！

观察目前的背景工作状态： jobs

# jobs [-lrs]
选项与参数：
-l  ：除了列出 job number 与指令串之外，同时列出 PID 的号码；
-r  ：仅列出正在背景 run 的工作；
-s  ：仅列出正在背景当中暂停 （stop） 的工作。

将背景工作拿到前景来处理：fg

# fg %jobnumber
选项与参数：
%jobnumber ：jobnumber 为工作号码（数字）。注意，那个 % 是可有可无的！

让工作在背景下的状态变成运行中： bg

# jobs ; bg %3 ; jobs

管理背景当中的工作： kill

# kill -signal %jobnumber
[root@study ~]# kill -l
选项与参数：
-l  ：这个是 L 的小写，列出目前 kill 能够使用的讯号 （signal） 有哪些？
signal ：代表给予后面接的那个工作什么样的指示啰！用 man 7 signal 可知：
  -1 ：重新读取一次参数的配置文件 （类似 reload）；
  -2 ：代表与由键盘输入 [ctrl]-c 同样的动作；
  -9 ：立刻强制删除一个工作；
  -15：以正常的程序方式终止一项工作。与 -9 是不一样的。

# kill -9 %2; jobs

Note: -9 这个 signal 通常是用在“强制删除一个不正常的工作”时所使用的， -15 则是以正常步骤结束一项工作（15也是默认值），两者之间并不相同呦！举上面的例子来说，我用 vim 的时候，不是会产生一个 .filename.swp 的文件吗？那么，当使用 -15 这个 signal 时， vim 会尝试以正常的步骤来结束掉该 vi 的工作，所以 .filename.swp 会主动的被移除。但若是使用 -9 这个 signal 时，由于该 vim 工作会被强制移除掉，因此， .filename.swp 就会继续存在文件系统当中

脱机管理\离线管理nohup

在工作管理当中提到的“背景”指的是在终端机模式下可以避免 [crtl]-c 中断的一个情境，那个是 bash 的背景，并不是放到系统的背景去！所以，工作管理的背景依旧与终端机有关啦！如果你是以远端连线方式（如ssh）连接到你的 Linux 主机，并且将工作以 & 的方式放到背景去，在工作尚未结束的情况下你离线了，该工作不会继续进行，而是会被中断掉。

首先，你可以使用at 来处理！因为 at 是将工作放置到系统背景，而与终端机无关。

还可以使用nohup

该命令的一般形式为：nohup command &

# nohup [指令与参数]   #在终端机前景中工作
# nohup [指令与参数] & #在终端机背景中工作

Note: nohup 并不支持 bash 内置的指令，因此你的指令必须要是外部指令才行。

可以使用top或者pstree查看刚刚的命令是不是在后台运行。

nohup命令及其输出文件

　　nohup命令：如果你正在运行一个进程，而且你觉得在退出帐户时该进程还不会结束，那么可以使用nohup命令。该命令可以在你退出帐户/关闭终端之后继续运行相应的进程。nohup就是不挂起的意思( no hang up)。

　　使用nohup命令提交作业

　　如果使用nohup命令提交作业，那么在缺省情况下该作业的所有输出都被重定向到一个名为nohup.out的文件（执行当前命令的目录下，注意这个文件每次运行nohup时nohup.out都是追加的）中，除非另外指定了输出文件：

　　nohup command &> myout.file &

　　在上面的例子中，输出被重定向到myout.file文件中。注意重定向命令要写在后台运行符号&前面，否则不会重定向输出！

　　使用 jobs 查看任务。

　　使用 fg %n 将任务转到前台来，就可以使用ctrl + c关闭了。
Note:
1 如果每次运行nohup，再输入其它命令就会[1]+ Exit 1，说明程序出错，可以通过nohup.out或者重定向2 > error.txt看看错误是啥。
2 输出提示nohup: ignoring input and appending output to ‘nohup.out’
That's not an error - it's normal behavior. It just informs you that once started the in/output is removed from your console.不想输出，重定向就可以了。

另外有两个常用的ftp工具ncftpget和ncftpput，可以实现后台的ftp上传和下载，这样我就可以利用这些命令在后台上传和下载文件了。

[解决Linux关闭终端（关闭SSH等）后运行的程序或者服务自动停止【后台运行程序】]

皮皮blog

进程管理

周期性执行某一命令，并将输出显示watch

基本用法

$ watch [options] command
最常用的参数是 -n，后面指定是每多少秒来执行一次命令。

监视显存：我们设置为每 10s 显示一次显存的情况：

$ watch -n 10 nvidia-smi

程序的观察

ps (ps -l, ps aux, zombie), top, htop, pstree

free ：观察内存使用情况

# free -m # 查看内存使用量和交换区使用量

# free [-b;-k;-m;-g;-h] [-t] [-s N -c N]
选项与参数：
-b  ：直接输入 free 时，显示的单位是 KBytes，我们可以使用 b（Bytes）, m（MBytes）
      k（KBytes）, 及 g（GBytes） 来显示单位喔！也可以直接让系统自己指定单位 （-h）
-t  ：在输出的最终结果，显示实体内存与 swap 的总量。
-s  ：可以让系统每几秒钟输出一次，不间断的一直输出的意思！对于系统观察挺有效！
-c  ：与 -s 同时处理～让 free 列出几次的意思～

# df -h                  # 查看各分区使用情况
# du -sh <目录名>        # 查看指定目录的大小
# grep MemTotal /proc/meminfo   # 查看内存总量
# grep MemFree /proc/meminfo    # 查看空闲内存量
# uptime                 # 查看系统运行时间、用户数、负载
# cat /proc/loadavg      # 查看系统负载

查看内存占用和cpu使用情况top

按内存排序：

top -o %MEM

# top [-d 数字] | top [-bnp]
选项与参数：
-d  ：后面可以接秒数，就是整个程序画面更新的秒数。默认是 5 秒；
-b  ：以批次的方式执行 top ，还有更多的参数可以使用喔！
      通常会搭配数据流重导向来将批次的结果输出成为文件。
-n  ：与 -b 搭配，意义是，需要进行几次 top 的输出结果。
-p  ：指定某些个 PID 来进行观察监测而已。
在 top 执行过程当中可以使用的按键指令：
    ? ：显示在 top 当中可以输入的按键指令；
    P ：以 CPU 的使用资源排序显示；
    M ：以 Memory 的使用资源排序显示；
    N ：以 PID 来排序喔！
    T ：由该 Process 使用的 CPU 时间累积 （TIME+） 排序。
    k ：给予某个 PID 一个讯号  （signal）
    r ：给予某个 PID 重新制订一个 nice 值。
    q ：离开 top 软件的按键。

显示的内容

统计信息区

前五行是系统整体的统计信息。

第一行是任务队列信息，同 uptime 命令的执行结果。其内容如下：

01:06:48	当前时间
up 1:22	系统运行时间，格式为时:分
1 user	当前登录用户数
load average: 0.06, 0.60, 0.48	系统负载，即任务队列的平均长度。三个数值分别为 1分钟、5分钟、15分钟前到现在的平均值。

第二、三行为进程和CPU的信息。当有多个CPU时，这些内容可能会超过两行。内容如下：

Tasks: 29 total	进程总数
1 running	正在运行的进程数
28 sleeping	睡眠的进程数
0 stopped	停止的进程数
0 zombie	僵尸进程数
Cpu(s): 0.3% us	用户空间占用CPU百分比
1.0% sy	内核空间占用CPU百分比
0.0% ni	用户进程空间内改变过优先级的进程占用CPU百分比
98.7% id	空闲CPU百分比
0.0% wa	等待输入输出的CPU时间百分比
0.0% hi
0.0% si

最后两行为内存信息：

Mem: 191272k total	物理内存总量
173656k used	使用的物理内存总量
17616k free	空闲内存总量
22052k buffers	用作内核缓存的内存量
Swap: 192772k total	交换区总量
0k used	使用的交换区总量
192772k free	空闲交换区总量
123988k cached	缓冲的交换区总量。内存中的内容被换出到交换区，而后又被换入到内存，但使用过的交换区尚未被覆盖，该数值即为这些内容已存在于内存中的交换区的大小。相应的内存再次被换出时可不必再对交换区写入。

进程信息区

统计信息区域的下方显示了各个进程的详细信息。首先来认识一下各列的含义。

序号	列名	含义
a	PID	进程id
b	PPID	父进程id
c	RUSER	Real user name
d	UID	进程所有者的用户id
e	USER	进程所有者的用户名
f	GROUP	进程所有者的组名
g	TTY	启动进程的终端名。不是从终端启动的进程则显示为 ?
h	PR	优先级
i	NI	nice值。负值表示高优先级，正值表示低优先级
j	P	最后使用的CPU，仅在多CPU环境下有意义
k	%CPU	上次更新到现在的CPU时间占用百分比
l	TIME	进程使用的CPU时间总计，单位秒
m	TIME+	进程使用的CPU时间总计，单位1/100秒
n	%MEM	进程使用的物理内存百分比
o	VIRT	进程使用的虚拟内存总量，单位kb。VIRT=SWAP+RES
p	SWAP	进程使用的虚拟内存中，被换出的大小，单位kb。
q	RES	进程使用的、未被换出的物理内存大小，单位kb。RES=CODE+DATA
r	CODE	可执行代码占用的物理内存大小，单位kb
s	DATA	可执行代码以外的部分(数据段+栈)占用的物理内存大小，单位kb
t	SHR	共享内存大小，单位kb
u	nFLT	页面错误次数
v	nDRT	最后一次写入到现在，被修改过的页面数。
w	S	进程状态。 D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程
x	COMMAND	命令名/命令行
y	WCHAN	若该进程在睡眠，则显示睡眠中的系统函数名
z	Flags	任务标志，参考 sched.h

默认情况下仅显示比较重要的 PID、USER、PR、NI、VIRT、RES、SHR、S、%CPU、%MEM、TIME+、COMMAND 列。可以通过下面的快捷键来更改显示内容。

更改显示内容

通过 f 键可以选择显示的内容。按 f 键之后会显示列的列表，按 a-z 即可显示或隐藏对应的列，最后按回车键确定。

按 o 键可以改变列的显示顺序。按小写的 a-z 可以将相应的列向右移动，而大写的 A-Z 可以将相应的列向左移动。最后按回车键确定。

按大写的 F 或 O 键，然后按 a-z 可以将进程按照相应的列进行排序。而大写的 R 键可以将当前的排序倒转。

查看gpu使用情况nvidia-smi

Nvidia自带了一个nvidia-smi的命令行工具NVIDIA System Management Interface ，会显示显存使用情况：

$ nvidia-smi

或者10s自动刷新

$watch -n 10 nvidia-smi

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.91.03    Driver Version: 460.91.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla V100-SXM2...  On   | 00000000:00:09.0 Off |                    0 |
| N/A   54C    P0    79W / 300W |  30972MiB / 32510MiB |     84%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   1  Tesla V100-SXM2...  On   | 00000000:00:0A.0 Off |                    0 |
| N/A   64C    P0    86W / 300W |  26938MiB / 32510MiB |     88%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   2  Tesla V100-SXM2...  On   | 00000000:00:0B.0 Off |                    0 |
| N/A   69C    P0   190W / 300W |  26938MiB / 32510MiB |     89%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
|   3  Tesla V100-SXM2...  On   | 00000000:00:0C.0 Off |                    0 |
| N/A   53C    P0   266W / 300W |  26938MiB / 32510MiB |     89%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|

上图就是使用了4块V100 GPU-32G训练时，使用的显卡内存Memory-Usage。

GPU：显卡编号，从0开始。
Fan：风扇转速，在0~100%之间变动。这个速度是计算机期望的风扇转速，实际情况下如果风扇堵转，可能就不会显示具体转速值。有的设备不会返回转速，因为它不依赖风扇冷却，而是通过其他外设保持低温，比如我们实验室的服务器是常年放在空掉房间里面的。
Name：显卡名，以上都是Tesla。
Temp：显卡内部的温度，以上分别是54、49、46、50、39摄氏度。
Perf：性能状态，从P0到P12，P0性能最大，P12最小。
Persistence-M：持续模式的状态开关，持续模式虽然耗能大，但是在新的GPU应用启动时，花费的时间更少。以上都是Off的状态。
Pwr：能耗表示。
Bus-Id：涉及GPU总线的相关信息。
Disp.A：是Display Active的意思，表示GPU的显示是否初始化。
Memory-Usage：显存的使用率。
GPU-Util：GPU的利用率。
Compute M.：计算模式。
下面的Process显示每块GPU上每个进程所使用的显存情况。
显卡占用和GPU占用是两个不一样的东西，显卡是由GPU和显卡等组成的，显卡和GPU的关系有点类似于内存和CPU的关系，两个指标的占用率不一定是互相对应的。例如跑tensorflow代码的时候，可能显存占得多，GPU占得少。

[nvidia-smi查看GPU的使用信息并分析_nvidia-smi怎么看_IronLavender的博客-CSDN博客]

安装htop工具

更直观，安装命令如下：sudo apt-get install htop

命令：htop

皮皮blog

程序的管理

signal, kill, killall

皮皮blog

程序的执行顺序

priority, nice, renice

具有优先顺序的程序伫列示意图

由于 PRI 是核心动态调整的，我们使用者也无权去干涉 PRI ！那如果你想要调整程序的优先执行序时，就得要通过 Nice 值了！Nice 值就是上表的 NI ！

一般来说， PRI 与 NI 的相关性如下： PRI（new） = PRI（old） + nice

Note: PRI 越小越早被执行，所以，当 nice 值为负值时，那么该程序就会降低 PRI 值，亦即会变的较优先被处理。

nice 值可调整的范围为 -20 ~ 19 ；root 可随意调整自己或他人程序的 Nice 值，且范围为 -20 ~ 19 ；一般使用者仅可调整自己程序的 Nice 值，且范围仅为 0 ~ 19 （避免一般用户抢占系统资源）；一般使用者仅可将 nice 值越调越高，例如本来 nice 为 5 ，则未来仅能调整到大于 5；

如何给予某个程序 nice 值呢？

一开始执行程序就立即给予一个特定的 nice 值：用 nice 指令

# nice [-n 数字] command
-n  ：后面接一个数值，数值的范围 -20 ~ 19。

调整某个已经存在的 PID 的 nice 值：用 renice 指令

# ps -l

# renice [number] PIDPID ：某个程序的 ID 啊！

皮皮blog

系统资源的查看

free, uname, uptime, netstat, dmesg, vmstat

系统

# uname -a               # 查看内核/操作系统/CPU信息
Linux euis1 2.6.9-55.ELsmp #1 SMP Fri Apr 20 17:03:35 EDT 2007 i686 i686 i386 GNU/Linux
(查看当前操作系统内核信息)
# head -n 1 /etc/issue   # 查看操作系统版本
Red Hat Enterprise Linux AS release 4 (Nahant Update 5)
(查看当前操作系统发行版信息)
# hostname               # 查看计算机名
# lspci -tv              # 列出所有PCI设备
# lsusb -tv              # 列出所有USB设备
# lsmod                  # 列出加载的内核模块
# env                    # 查看环境变量
查看机器型号
# dmidecode | grep "Product Name"
查看网卡信息
# dmesg | grep -i eth
查看平台
# uname -p
x86_64

cpu信息

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数
# 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数

查看CPU信息
# cat /proc/cpuinfo

# 查看物理CPU个数
cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l

# 查看每个物理CPU中core的个数(即核数)
cat /proc/cpuinfo| grep "cpu cores"| uniq

# 查看逻辑CPU的个数
cat /proc/cpuinfo| grep "processor"| wc -l

内存信息

查看内存信息
# cat /proc/meminfo

资源

磁盘和分区

# mount | column -t      # 查看挂接的分区状态
# fdisk -l               # 查看所有分区
# swapon -s              # 查看所有交换分区
# hdparm -i /dev/hda     # 查看磁盘参数(仅适用于IDE设备)
# dmesg | grep IDE       # 查看启动时IDE设备检测状况

网络

# ifconfig # 查看所有网络接口的属性

linux shell获取本机IP命令：

ifconfig | grep 'inet addr:'| grep -v '127.0.0.1' | cut -d : -f 2 | awk '{ print $1}'

或者ifconfig | grep 'inet addr:'| grep -v '127.0.0.1' | cut -d : -f 2 | cut -d ' ' -f 1

或者/sbin/ifconfig -a|grep inet|grep -v 127.0.0.1|grep -v inet6|awk '{print $2}'|tr -d "addr:"

或者local_host="`hostname --fqdn`"; local_ip=`host $local_host 2>/dev/null | awk '{print $NF}'`

或者local_host="`hostname --fqdn`"; nslookup -sil $local_host 2>/dev/null | grep Address: | sed '1d' | sed 's/Address://g'

[获取当前IP地址的shell脚本详解]

# iptables -L # 查看防火墙设置

# route -n               # 查看路由表
# netstat -lntp          # 查看所有监听端口
# netstat -antp          # 查看所有已经建立的连接
# netstat -s             # 查看网络统计信息

查看linux连接进程占用的实时流量nethogs

要查看这台设备上的每个进程连接的带宽情况，可以使用nethogs工具。

(1)、可以实时查看系统当前进程的流量

(2)、可以和nload结合起来，可以诊断出很多问题。

sudo apt-get install -y nethogs

实时查看进程流量nethogs

图中会显示当前的nginx产生的流量有多少都会清晰地显示出来。单位KB/sec。

如果要将这些数据记录到日志里，可以使用下面的命令：

nethogs -b | tee log.txt

[查看linux连接进程占用的实时流量]

进程

# ps -ef # 查看所有进程
# top # 实时显示进程状态

用户

# w                      # 查看活动用户
# id <用户名>            # 查看指定用户信息
# last                   # 查看用户登录日志
# cut -d: -f1 /etc/passwd   # 查看系统所有用户
# cut -d: -f1 /etc/group    # 查看系统所有组
# crontab -l             # 查看当前用户的计划任务