fork()函数
头文件
#include<unistd.h>
#include<sys/types.h>
函数原型
pid_t fork( void);
(pid_t 是一个宏定义,其实质是int 被定义在#include<sys/types.h>中)返回值: 若成功调用一次则返回两个值,子进程返回0,父进程返回子进程ID;否则,出错返回-1
函数说明
fork一个现有进程可以调用fork函数创建一个新进程。由fork创建的新进程被称为子进程(child process)。fork函数被调用一次但返回两次。两次返回的唯一区别是子进程中返回0值而父进程中返回子进程ID。子进程是父进程的副本,它将获得父进程数据空间、堆、栈等资源的副本。注意,子进程持有的是上述存储空间的“副本”,这意味着父子进程间不共享这些存储空间。UNIX将复制父进程的地址空间内容给子进程,因此,子进程有了独立的地址空间。在不同的UNIX (Like)系统下,我们无法确定fork之后是子进程先运行还是父进程先运行,这依赖于系统的实现。所以在移植代码的时候我们不应该对此作出任何的假设。
为什么fork会返回两次?
由于在复制时复制了父进程的堆栈段,所以两个进程都停留在fork函数中,等待返回。因此fork函数会返回两次,一次是在父进程中返回,另一次是在子进程中返回,这两次的返回值是不一样的。过程如下图。
fork调用的一个奇妙之处就是它仅仅被调用一次,却能够返回两次,它可能有三种不同的返回值:
在父进程中,fork返回新创建子进程的进程ID;
在子进程中,fork返回0;
如果出现错误,fork返回一个负值。
在fork函数执行完毕后,如果创建新进程成功,则出现两个进程,一个是子进程,一个是父进程。在子进程中,fork函数返回0,在父进程中,fork返回新创建子进程的进程ID。我们可以通过fork返回的值来判断当前进程是子进程还是父进程。
引用一位网友的话来解释fork函数返回的值为什么在父子进程中不同。“其实就相当于链表,进程形成了链表,父进程的fork函数返回的值指向子进程的进程id, 因为子进程没有子进程,所以其fork函数返回的值为0.
调用fork之后,数据、堆栈有两份,代码仍然为一份但是这个代码段成为两个进程的共享代码段都从fork函数中返回,箭头表示各自的执行处。当父子进程有一个想要修改数据或者堆栈时,两个进程真正分裂。
深度解析:
从底层看fork()的实现
fork()创建的子进程是父进程的一个复制品,它从父进程处继承了整个父进程的地址空间(虚拟空间),包括进程上下文(进程执行活动全过程的静态描述)、进程堆栈、打开的文件描述符、信号控制设定、进程优先级、进程组号等。fork()时子进程获得父进程数据空间、堆和栈的复制,所以变量的虚拟地址相同,但是这两个相同的虚拟地址指向的是不同是物理地址。因此fork()创建的子进程与父进程的地址空间不是共享的。
fork()的入口问题
对于fork()创建子进程时,子进程的入口问题,fork()创建子进程时,子进程继承了父进程的PC(程序计时器),也就是继承了fork()语句发生时的当前环境,而不是程序的初始环境。在父进程中fork()语句启动子进程,并将子进程的PID返回,而子进程中的fork()语句不启动新进程,仅将0返回。
注意:
出于效率考虑,linux对于fork()创建的进程引入了“写时复制“技术,也就是只有进程空间的各段的内容要发生变化时,才会将父进程的内容复制一份给子进程,就是在fork之后exec之前两个进程用的是相同的物理空间,子进程的代码段、数据段、堆栈都是指向父进程的物理空间,也就是说,两者的虚拟空间不同,但其对应的物理空间是同一个。
随便提一句fork的兄弟vfork()
vfork()创建的进程与其父进程是共享物理空间的,当调用exec后才为子进程分配新的物理空间。其基本原理与fork()大致相同。