Linux多进程开发(一)

STATEABC

已于 2022-06-27 16:16:01 修改

阅读量187

点赞数

分类专栏：抽象的Linux操作系统和计算机网络文章标签： linux

于 2022-06-18 20:35:02 首次发布

本文链接：https://blog.csdn.net/STATEABC/article/details/125335742

版权

抽象的Linux操作系统和计算机网络专栏收录该内容

14 篇文章 4 订阅

订阅专栏

1.进程概述

程序和进程

程序是包含一系列信息的文件，这些信息描述了如何在运行时创建一个进程：

二进制格式标识：每个程序文件都包含用于描述可执行文件格式的元信息。内核利用此信息来解释文件中的其他信息。（ELF可执行连接格式）
机器语言指令：对程序算法进行编码。
程序入口地址：标识程序开始执行时的起始指令位置。
数据：程序文件包含的变量初始值和程序使用的字面量值（比如字符串）。
符号表及重定位表：描述程序中函数和变量的位置及名称。这些表格有多重用途，其中包括调试和运行时的符号解析（动态链接）。
共享库和动态链接信息：程序文件所包含的一些字段，列出了程序运行时需要使用的共享库，以及加载共享库的动态连接器的路径名。
其他信息：程序文件还包含许多其他信息，用以描述如何创建进程。

进程是正在运行的程序的实例，是一个具有一定独立功能的程序关于某个数据集合的一次运行活动。它是操作系统动态执行的基本单元，在传统的操作系统中，进程既是基本的分配单元，也是基本的执行单元。

用一个程序可以创建多个进程，进程是由内核定义的抽象实体，并为该实体分配用以执行程序的各项系统资源。从内核的角度看，进程由用户内存空间和一系列内核数据结构组成，其中用户内存空间包含了程序代码及代码所使用的变量，而内核数据结构则用于维护进程状态信息。记录在内核数据结构中的信息包括许多与进程相关的标识号（IDs）、虚拟内存表、打开文件的描述符表、信号传递及处理的有关信息、进程资源使用及限制、当前工作目录和大量的其他信息。

单道、多道程序设计

单道程序，即在计算机内存中只允许一个的程序运行。

多道程序设计技术是在计算机内存中同时存放几道相互独立的程序，使它们在管理程序控制下，相互穿插运行，两个或两个以上程序在计算机系统中同处于开始到结束之间的状态, 这些程序共享计算机系统资源。引入多道程序设计技术的根本目的是为了提高 CPU 的利用率。

对于一个单 CPU 系统来说，程序同时处于运行状态只是一种宏观上的概念，他们虽然都已经开始运行，但就微观而言，任意时刻，CPU 上运行的程序只有一个。

在多道程序设计模型中，多个进程轮流使用 CPU。而当下常见 CPU 为纳秒级，1秒可以执行大约 10亿条指令。由于人眼的反应速度是毫秒级，所以看似同时在运行。

时间片

时间片（timeslice）又称为“量子（quantum）”或“处理器片（processor slice）”是操作系统分配给每个正在运行的进程微观上的一段 CPU 时间。事实上，虽然一台计算机通常可能有多个 CPU，但是同一个 CPU 永远不可能真正地同时运行多个任务。在只考虑一个 CPU 的情况下，这些进程“看起来像”同时运行的，实则是轮番穿插地运行，由于时间片通常很短（在 Linux 上为 5ms－800ms），用户不会感觉到。

时间片由操作系统内核的调度程序分配给每个进程。首先，内核会给每个进程分配相等的初始时间片，然后每个进程轮番地执行相应的时间，当所有进程都处于时间片耗尽的状态时，内核会重新为每个进程计算并分配时间片，如此往复。

并行和并发

并行(parallel)：指在同一时刻，有多条指令在多个处理器上同时执行。

并发(concurrency)：指在同一时刻只能有一条指令执行，但多个进程指令被快速的轮换执行，使得在宏观上具有多个进程同时执行的效果，但在微观上并不是同时执行的，只是把时间分成若干段，使多个进程快速交替的执行。
(并发是两个队列交替使用一台咖啡机；并行是两个队列同时使用两台咖啡机)
在这里插入图片描述

进程控制块PCB

为了管理进程，内核必须对每个进程所做的事情进行清楚的描述。内核为每个进程分配一个 PCB(Processing Control Block)进程控制块，维护进程相关的信息，Linux 内核的进程控制块是 task_struct 结构体。

在 /usr/src/linux-headers-xxx/include/linux/sched.h 文件中可以查看 struct task_struct 结构体定义。其内部成员有很多，我们只需要掌握以下部分即可：

进程id：系统中每个进程有唯一的 id，用 pid_t 类型表示，其实就是一个非负整数
进程的状态：有就绪、运行、挂起、停止等状态
进程切换时需要保存和恢复的一些CPU寄存器
描述虚拟地址空间的信息
描述控制终端的信息
当前工作目录（Current Working Directory）
umask 掩码
文件描述符表，包含很多指向 file 结构体的指针
和信号相关的信息
用户 id 和组 id
会话（Session）和进程组
进程可以使用的资源上限（Resource Limit）

2.进程状态转换

进程的状态

进程状态反映进程执行过程的变化。这些状态随着进程的执行和外界条件的变化而转换。
在三态模型中，进程状态分为三个基本状态，即就绪态，运行态，阻塞态。
在这里插入图片描述
在五态模型中，进程分为新建态、就绪态，运行态，阻塞态，终止态。

进程相关命令

查看进程

查看进程：ps aux/ajx

a：显示终端上的所有进程，包括其他用户的进程
u：显示进程的详细信息
x：显示没有控制终端的进程
j：列出与作业控制相关的信息

在终端输入ps aux后所显示的是输入命令后操作系统中的进程，不能动态的实现
在这里插入图片描述
其中USER为进程所属的用户；PID为process ID、进程ID(每一个进程都有唯一的编号)；%CPU为CPU的使用率；%MEM为内存的使用率；TTY为当前进程所属终端；STAT为state状态；START为开始时间；TIME为持续时间；COMMAND为由执行改命令产生的此进程

STAT参数	参数意义
D	不可中断 Uninterruptible（usually IO）
R	正在运行，或在队列中的进程
S(大写)	处于休眠状态
T	停止或被追踪
Z	僵尸进程
W	进入内存交换（从内核2.6开始无效）
X	死掉的进程
<	高优先级
N	低优先级
s	包含子进程
+	位于前台的进程组

在终端输入ps ajx后
PPID为parent PID、父进程的ID(进程A产生进程B，那么A为父进程、B为子进程)；
PGID为进程组的ID(一个进程组里有很多进程)；
SID为会话ID(会话里有多个进程组)；
在这里插入图片描述

实时显示进程的动态

实时显示进程的动态：top

可以在使用 top 命令时加上 -d 来指定显示信息更新的时间间隔
在 top 命令执行后，可以按以下按键对显示的结果进行排序：
M：根据内存使用量排序
P：根据 CPU 占有率排序
T：根据进程运行时间长短排序
U：根据用户名来筛选进程
K：输入指定的 PID 杀死进程

杀死进程

kill [-signal] pid     
kill -l                //列出所有信号
kill -SIGKILL 进程ID   //通过宏杀死进程
kill -9 进程ID         //强制杀死进程
killall name          //根据进程名杀死进程

进程号和相关函数

每个进程都由进程号来标识，其类型为 pid_t（整型），进程号的范围：0～32767。进程号总是唯一的，但可以重用。当一个进程终止后，其进程号就可以再次使用。

任何进程（除 init 进程）都是由另一个进程创建，该进程称为被创建进程的父进程，对应的进程号称为父进程号（PPID）。

进程组是一个或多个进程的集合。他们之间相互关联，进程组可以接收同一终端的各种信号，关联的进程有一个进程组号（PGID）。默认情况下，当前的进程号会当做当前的进程组号。

进程号和进程组相关函数：

pid_t getpid(void);         //获取当前进程号
pid_t getppid(void);        //获取当前进程的父进程号
pid_t getpgid(pid_t pid);   //获取当前进程的进程组ID

3.进程创建

进程创建

系统允许一个进程创建新进程，新进程即为子进程，子进程还可以创建新的子进程，形成进程树结构模型。

#include <sys/types.h>
#include <unistd.h>
pid_t fork(void);
    函数的作用：用于创建子进程。
    返回值：
        fork()的返回值会返回两次:一次是在父进程中，返回创建的子进程的ID
                                一次是在子进程中，返回0
        通过fork的返回值区分父进程和子进程
        如果在父进程中返回-1，表示创建子进程失败，并且设置errno
        失败的两个主要原因:1.当前系统的进程数已经达到了系统规定的上限，这时errno的值被设置为EAGAIN
                          2.系统内存不足，这时errno的值被设置为ENOMEM

示例：

#include <sys/types.h>
#include <unistd.h>
#include <stdio.h>

int main() {

    pid_t pid = fork();            //创建子进程
    //根据返回值判断是父进程还是子进程
    if(pid > 0) {                  //如果大于0，返回的是创建的子进程的进程号，当前是父进程
        printf("pid : %d\n", pid);
        printf("i am parent process, pid : %d, ppid : %d\n", getpid(), getppid());
    } else if(pid == 0) {          //当前是子进程      
        printf("i am child process, pid : %d, ppid : %d\n", getpid(),getppid());
    }
    
    for(int i = 0; i < 3; i++) {   // for循环
        printf("i : %d , pid : %d\n", i , getpid());
        sleep(1);
    }

    return 0;
}

在这里插入图片描述

第一个打印的PID:5094为新创建的子进程的进程号
第二个打印的pid : 5093, ppid : 1854，其中pid : 5093为父进程ID，ppid : 1854为父进程的父进程ID，即当前终端(终端也是一个进程)，通过ps aux可以查看
在这里插入图片描述
第三个打印的pid : 5094, ppid : 5093，其中pid : 5094为子进程ID，ppid : 5093为其父进程ID
可以从其他部分i : 0 , pid : 5093;i : 0 , pid : 5093;i : 1 , pid : 5094;i : 1 , pid : 5093;i : 2 , pid : 5094;i : 2 , pid : 5093看出父子进程是交替运行的

父子进程虚拟地址空间

Linux的fork()使用是通过写时拷贝(copy-on-write)实现。
写时拷贝是一种可以推迟甚至避免拷贝数据的技术。
内核此时并不复制整个进程的地址空间，而是让父子进程共享同一个地址空间。只用在需要写入的时候才会复制地址空间，从而使各个进程拥有各自的地址空间。
也就是说，资源的复制是在需要写入的时候才会进行，在此之前，只有以只读方式共享。

注意：fork之后父子进程共享文件，fork产生的子进程与父进程相同的文件文件描述符指向相同的文件表，引用计数增加，共享文件偏移指针。

父子进程之间的关系：
    区别：
        1.fork()函数的返回值不同
            父进程中: >0，返回的是子进程的ID
            子进程中: =0
        2.pcb中的一些数据不同
            当前的进程的id，pid不同
            当前的进程的父进程的id，ppid不同
            信号集不同

    共同点：
        某些状态下：子进程刚被创建出来，还没有执行任何的写数据的操作
            - 用户区的数据相同
            - 文件描述符表相同
        
    父子进程对变量是不是共享的？
        - 刚开始的时候，是一样的，共享的。如果修改了数据，不共享了。
         - 读时共享（子进程被创建，两个进程没有做任何的写的操作），写时拷贝。