【Linux】进程2——PID/PPID，fork函数

掘根

已于 2025-05-24 21:36:54 修改

阅读量2.5k

点赞数 21

分类专栏： Linux系统编程文章标签： linux 运维服务器

于 2024-06-08 14:07:19 首次发布

本文链接：https://blog.csdn.net/2301_80224556/article/details/139543666

版权

Linux系统编程专栏收录该内容

71 篇文章

订阅专栏

3.4 为何fork函数中父进程返回子进程的pid、子进程却返回0？

今天我们来讲进程里比较重要的一个点——父子进程

1.见见PID，PPID

我们先写一个简单的程序，让它运行起来，通过一些指令，我们就可以查看到这个进程了

mycode.c

makefile

我们在zs_108直接编译mycode.c，直接运行，然后我们转换另一个账号（同一个公网IP下的不同账号）来查看这个进程

我们可以通过ps指令来查看进程

我们就会好奇了，第二行是什么？我们查的是第一行的啊

那个是指令的ps的进程

PID有什么用呢？

一个PID只对应一个进程

这个非常有用，比如说我们可以让一个进程强制停止下来

我们执行下面这个就能让这个进程停止

程序就被强制停止了

上面这个就是PID的大概内容了，我们总结一下

PID (process ID)：

进程PID是当操作系统运行进程时系统自动为其分配的标识符，具有唯一性，且为非零整数。一个PID只会标识一个进程。

一旦被发放将会是终生标识，目的是便于操作系统进行管理和标记进程，但是当进程的生命周期终止，此时的PID进程号便会释放，之后的进程可以再次使用。

问题又来了，那么PPID是什么？

PPID (Parent Process ID)：

在linux中，PPID代表的是父进程的PID，即父进程相应的进程号。当一个进程被创建时，创建它的那个进程会被称作为父进程，而子进程将以PPID指出它的父进程。

注意：

1、所有进程追溯其祖先最终都会落到PID为1的进程身上，这个进程叫init进程
2、init进程是linux内核启动后第一个执行的进程。
3、init引导系统，启动守护进程并且运行必要的程序。

2.通过系统调用获取进程标示符

2.1.PID——子进程

我们怎么获得自己的PID呢？

用系统调用——getpid函数

我们用man查一下

我们来使用一下就知道了

mycode.c

makefile

在执行之前我们先执行这个

注意test是我的可执行程序的名字

我们再运行我们编译好的可执行程序

发现右边的也开始出现数据了

发现跟我们查的PID是一样的啊

我们可以多跑几次，发现PID变了，但是两边的PID都是一样的

2.2.PPID——父进程

PPID是通过函数getppid来实现的

我们还是用man手册查询一下

我们去修改代码

我们重复上面PID的步骤

我们再执行我们的test

完全对的上

我们终止一下我们的程序，然后我们再运行我们的可执行程序

我们发现我们的PID变化了，但是父进程PPID没变

那么这个PPID是谁啊

这个是bash进程

我们每次登录时，系统都会为我们创建一个bash进程

3.通过系统调用创建进程-fork初识

我们可以用man查看fork一下

他的作用是创建一个子进程

它的用法有的奇怪，我来展示一下

我们运行一下这段代码

我们再修改一下代码

再执行一下

怎么还打印到命令行里面来了？？？

我们再修改一下代码

before是一条，after是两条，为什么呢？

这个是因为fork()的原因

按照手册的说法，fork的返回值既大于0又等于0，这可能吗？？？？？

我们来验证一下

我们编译运行一下

两个死循环在跑？？？

这个在c语言是基本不可能的，但是这个在操作系统是可以的

有没有发现children的PPID和parent的PID是一样的，所以他们是纯正的父子关系

在执行fork之前只有一个进程，执行到fork后就创建子进程，父进程就是原来的那个进程

创建进程的方式

./可执行程序
fork()函数

接下来我们好好来好好研究一下fork函数

程序开始时按照从上往下的执行顺序创建一个执行流，执行到fork时创建子进程，子进程的返回值等于0，父进程的返回值大于0 ，就变成了两个执行流，父进程是旧的那个执行流，子进程是新创建的进程

这个对初学者来说有一点难懂

我们再画个图就明白了

换成windows下来理解就是，用一个可执行程序（父进程）创建建了一个新的可执行程序（子进程），新的可执行程序和旧的可执行程序的代码是同一份代码。

3.1 为什么要创建子进程？

父进程创建子进程通常是希望子进程来协助父进程来完成一些工作，这些工作是单进程无法实现的。

例如：用户在下载某一款软件时，同时存在播放该款软件的官方宣传视频的需求。这就需要子进程来协助父进程来达到边下载边播放的目的。即通过一定手段（通常时fork()的返回值），让父子进程分别执行不同的代码！

3.2 fork()究竟干了些什么？

fork()创建进程后，OS中会多一个进程(子进程)。
在创建过程中，Linux操作系统会为子进程创建对应的task_struct，并用父进程的大部分属性来初始化子进程的相关属性（如子进程的pid、ppid、所在路径等属性信息则是单独实现）。
最后将该进程链入到运行队列中，等待CPU的调度！！

我们知道进程 = 代码 + 内核数据结构和数据，并且进程间时是相互独立的。而进程中的代码和数据等是操作系统在创建该进程时，从磁盘上加载拷贝到内存中的。

但创建的子进程是直接在内存中创建的，子进程并没有相应的代码和数据，那要怎么解决这个问题呢？

实际上，代码只是用于读取的。所以Linux中fork()创建的子进程和父进程共用同一段代码。
但对于数据来说，父/子进程间必然会存在差异（比如pid、ppid等）。同时为了保证父/子进程间的独立性，必须在父/子进程中各自独立私有一份。而在Linux中采用了写时拷贝的方式来解决这个问题。我们下一节说

下一个问题就是为啥我们在前面的展示中，fork()创建出的子进程只执行fork()后的代码？子进程能否“看见”在fork()前的代码呢？

答案是子进程能看见fork()前的所有代码！
至于为啥子进程只执行fork()后的代码，这是由于代码运行过程中，存在诸如epi、pc等寄存器。
这些寄存器中会保存当前指令要执行的下一条指令的地址。
而fork()创建子进程过程中，父进程中pc、epi等寄存器的结果也“继承”给了子进程。
所以才出现子进程只运行执行fork()函数后的代码！

3.3 fork为什么会存在两个返回值？

        理解一个函数如何被返回两次，尤其是fork()，首先需要深入了解fork()的工作原理。

        在没有调用fork()之前，系统中只有一个进程。进程由内核数据结构和与之关联的代码和数据组成。当创建一个新进程时，需要为它创建相应的进程控制块（PCB）以及与之关联的代码和数据。CPU随后会调度这个新进程，执行它的代码和数据。

        调用fork()后，会创建一个新的子进程。创建子进程的本质是系统中多了一个新进程。由于进程由内核数据结构和代码及数据组成，因此新创建的子进程首先需要创建自己的task_struct（Linux内核中的进程描述符）。这个子进程的大部分属性是基于父进程的属性创建的，相当于复制了父进程的对象并对部分属性进行了修改。例如，子进程会有自己的PID，而其父进程ID（PPID）则设置为父进程的PID。这样，父子进程就有了自己的ID关系。

        然而，子进程在刚创建时并没有自己的代码和数据，因此它只能访问父进程的代码和数据。这就是为什么fork()之后父子进程的代码是共享的。当CPU调度并运行父进程的代码时，它执行的是父进程的代码；当调度并运行子进程的代码时，它执行的仍然是父进程的代码

3.4 为何fork函数中父进程返回子进程的pid、子进程却返回0？

        一般而言啊，fork之后的代码父子共享啊。

        也就是说呢，其实当执行完fork函数之后，后续的所有代码父子进程他都能看到啊，只不过呢，我们是需要通过一定程度去区分，我们可以让父进程和子进程执行不同的代码块，那么当然应该这样，要不然我为什么创建子进程呢，我不就是想让你的子进程过来帮我忙嘛，把你创建出来，让你和我做不同的事情，所以我们的返回值一定是需要不同的。

        即便是未来系统设计者把返回值设成相同的了，未来我们一定也要有方法区分父子进程，这是这个，当然这不是这个问题的答案，问题是为什么要给子进程返回0给父进程返回pid，上面回答的是为什么父子进程返回值不同，我们现在知道了，因为父子进程，那么后续的代码是共享的，而我们可以通过不同的返回值来区分不同的执行流，让父子执行不同的代码块好也没有毛病，具体他执行的代码块要干啥我们后面来介绍啊现在的问题是为什么要给子进程返回0给父进程返回pid。

        给大家举一个生活当中的例子啊：
        在现实生活中，一个父亲可以有多个子女，而每个子女只有一个父亲，这是容易理解的。在进程的世界中，一个父进程也可能有多个子进程。但有时，我们可能需要对特定的子进程进行控制。想象一下，如果一个家庭有10个孩子，当父亲喊“儿子，你过来”时，所有10个孩子都过来了，那么父亲到底是想叫哪个孩子呢？
        因此，对于父进程来说，它必须有一种方法来区分每一个子进程。这就是为什么fork()在父进程中返回子进程的PID。这样，父进程就可以使用这个PID来标定和识别每一个子进程的唯一性。而对于子进程来说，情况就简单了。它只需要调用getppid()函数就可以直接获取其父进程的PID。

所以，子进程要找到父进程并不需要花费太多成本，它只需要通过返回0来表示成功就可以了。这就是为什么我们在父进程中返回子进程的PID的原因，因为未来我们可能想通过父进程使用PID来明确控制我们要访问的是哪一个子进程。

3.5 父进程和子进程谁先运行？

我们已经看到了fork()函数会创建一个子进程。创建完子进程后，子进程会被加载链接到系统进程列表中等待CPU调度运行。
至于父进程和子进程谁先被CPU调度是不确定的。进程被调度的先后顺序由各自的PCB中的调度信息（时间片 + 优先级等）+ 调度器算法确定。换句话说，父进程和子进程谁先运行是由操作系统决定的！

3.6 为何同一个变量能接收两个返回值

我们先看看原理

        当使用fork()创建子进程时，系统中确实多了一个进程，这也意味着操作系统内必须为这个新进程创建一个对应的PCB（进程控制块）。这个子进程的PCB同样可以被CPU调度运行。与父进程不同，子进程在创建之初并没有自己的代码和数据。

        需要明确的是，进程在运行时具有独立性。这意味着一个进程的崩溃或退出不会影响到其他进程。例如，如果在Windows上运行的QQ崩溃了，它不会影响到同时运行的画图软件或XShell等其他进程。每个进程都是独立的，它们的崩溃或退出不会影响其他进程。

        为了保证进程的独立性，不能让父进程和子进程共享同一份数据，因为数据可能会被修改，修改后可能会影响其他进程。因此，虽然父子进程的代码是共享的，但数据不一定是共享的。

        理论上，子进程需要为自己拷贝一份父进程的数据。但实际上，数据的拷贝工作是由操作系统自动完成的。

        当子进程需要修改父进程的某部分数据时，操作系统会识别出这一需求，并在系统内存中为子进程重新开辟一段空间。子进程在新开辟的空间内进行数据的修改，这样就不会影响到父进程的数据。这种技术被称为写时拷贝（Copy-on-Write）。它确保了父子进程在数据层面的独立性，同时也避免了不必要的数据冗余。

注意：子进程不修改父进程的数据的话是不会发生写时拷贝的

总结来说，fork()创建的子进程具有独立的PCB，可以被CPU调度运行。虽然父子进程的代码是共享的，但数据不一定是共享的。操作系统通过写时拷贝技术确保父子进程在数据层面的独立性，同时也避免了数据冗余。

知道了上面的原理，我们就能回复原来这个问题了

fork 函数在执行 return 返回的时候是往 id 变量里面写入嘛，父进程 return 一次，子进程 return 一次，子进程企图修改父进程的数据，这个时候子进程自动会执行写时拷贝，这就是为什么一个 id 变量有两个不同的数据，本质上是因为有两块空间。

为什么同一个变量名可以有不同的内容，这个问题我们在后面介绍进程地址空间的时候为大家介绍。

3.6.1.写时拷贝

写时复制是一种基于惰性算法的优化策略，为了避免复制时的系统开销。其前提假设很简单：如果有多个进程要读取它们自己那部分资源的副本，那么复制是不必要的。每个进程只要保存一个指向这个资源的指针就可以了。只要没有一个进程修改自己的“副本”，每个进程就好像独占那个资源，从而避免了复制带来的开销。如果某个进程想要修改自己的那份资源“副本”，就会开始复制该资源，并把副本提供给这个进程。复制过程对进程而言是“透明”的。这个进程后面就可以反复修改其持有的副本，而其他进程还是共享原来那份没有修改过的资源。这就是“写时复制”这个名称的由来：只有在写入时才执行复制。

写时复制的主要好处在于：如果进程从未修改资源，则都不需要执行复制。一般来说，惰性算法的好处就在于它们会尽量延迟代价高的操作，直到必要时才执行。

在使用虚拟内存的场景下，写时复制（Copy-on-write）是以页为基础执行的。所以，只要进程没有修改其全部地址空间，就不需要复制整个地址空间。在fork()调用结束后，父进程和子进程都以为自己有唯一的地址空间，实际上它们共享父进程的原始页，这些页后面可能又会被其他的父进程或子进程共享。

写时复制在内核中的实现非常简单。这些页被标记为只读，并对内核页相关的数据结构实现写时复制。如果有进程试图修改某个页，就会产生缺页中断。内核处理缺页中断的处理方式就是对该页执行一次透明复制。这时，会清空该页的写时复制属性，表示这个页不再被共享。现代的计算机结构体系中都在内存管理单元（MMU）提供了硬件级别的写时复制支持，所以实现是很容易的。

对于调用fork()创建进程的场景，写时复制有更大的优势。由于大量的fork创建之后都会紧接着执行exec，因此把整个父进程地址空间中的内容复制到子进程的地址空间往往只是纯属浪费；如果子进程立刻执行一个新的二进制可执行文件的映像，它先前的地址空间就会被交换出去。写时复制可以对这种情况进行优化。