1、父进程创建子进程知识点
下面内容引用自博文:https://blog.csdn.net/xy010902100449/article/details/44851453
同时建议参考:深入理解计算机系统(CSAPP)第八章异常控制流相关内容。
“fork()会产生一个和父进程完全相同的子进程,但子进程在此后多会exec系统调用,出于效率考虑,linux中引入了“写时复制“技术,也就是只有进程空间的各段的内容要发生变化时,才会将父进程的内容复制一份给子进程。在fork之后exec之前两个进程用的是相同的物理空间(内存区),子进程的代码段、数据段、堆栈都是指向父进程的物理空间,也就是说,两者的虚拟空间不同,但其对应的物理空间是同一个。当父子进程中有更改相应段的行为发生时,再为子进程相应的段分配物理空间,如果不是因为exec,内核会给子进程的数据段、堆栈段分配相应的物理空间(至此两者有各自的进程空间,互不影响),而代码段继续共享父进程的物理空间(两者的代码完全相同)。而如果是因为exec,由于两者执行的代码不同,子进程的代码段也会分配单独的物理空间。
fork时子进程获得父进程数据空间、堆和栈的复制,所以变量的地址(当然是虚拟地址)也是一样的。
每个进程都有自己的虚拟地址空间,不同进程的相同的虚拟地址显然可以对应不同的物理地址。因此地址相同(虚拟地址)而值不同没什么奇怪。
具体过程是这样的:
fork子进程完全复制父进程的栈空间,也复制了页表,但没有复制物理页面,所以这时虚拟地址相同,物理地址也相同,但是会把父子共享的页面标记为“只读”(类似mmap的private的方式),如果父子进程一直对这个页面是同一个页面,知道其中任何一个进程要对共享的页面“写操作”,这时内核会复制一个物理页面给这个进程使用,同时修改页表。而把原来的只读页面标记为“可写”,留给另外一个进程使用。
这就是所谓的“写时复制”。正因为fork采用了这种写时复制的机制,所以fork出来子进程之后,父子进程哪个先调度呢?内核一般会先调度子进程,因为很多情况下子进程是要马上执行exec,会清空栈、堆。。这些和父进程共享的空间,加载新的代码段。。。,这就避免了“写时复制”拷贝共享页面的机会。如果父进程先调度很可能写共享页面,会产生“写时复制”的无用功。所以,一般是子进程先调度滴。”
2、循环创建子进程代码
#include <cstdio>
#include <cstdlib>
#include <cstring>
#include <unistd.h>
#include <pthread.h>
int main(int argc, char *argv[])
{
int i;
for(i = 0; i<5; ++i){
if(fork() == 0){
break; //子进程跳出循环
}
}
if(i ==5){
sleep(5);
printf("I'm the parent\n");
}
else{
sleep(i); //使得子进程按创建顺序输出
printf("I'm the %d-th child process\n", i+1);
}
return 0;
}
3、关于代码功能解释
此段代码通过for循环创建了5个进程,创建出的子进程并不会并发地和父进程一起继续执行余下的for循环语句,而是跳出循环,转而执行循环之后的语句,输出标识自己是哪一个进程的语句。
由于创建子进程之后,父进程还需要继续执行循环以便完成循环创建任务,故在这个过程中 i 值还会继续发生变化,根据写时复制技术,当父进程要对 i 值进行改动时,操作系统会创建 i 值所在页面的副本,然后将这个副本映射到相应需要对页面进行修改的进程的地址空间,此时父进程要修改的 i 值是属于它自己的,与子进程所映射的页面的 i 值无关,例如,当 i=0 的时候,父进程创建了一个子进程,该子进程会跳出循环,执行循环后的语句,当 父进程打算修改 i 值为1时,根据上述原理,在修改前,父进程和子进程各自有了独立的 i 值所在页面,故父进程对 i 值的修改并不影响子进程的 i 值,这样,每个进程就可以用 i 值来独立地标识自己的身份。