进程专题02篇———进程共享（读时共享写时复制copy-on-write）原理详解——超经典

最新推荐文章于 2022-12-06 21:44:56 发布

博雅勇士

最新推荐文章于 2022-12-06 21:44:56 发布

阅读量2.5k

点赞数 6

分类专栏： 07Linux系统编程——进程、线程、进程间通信（黑马）

本文链接：https://blog.csdn.net/boyaaboy/article/details/102512106

版权

07Linux系统编程——进程、线程、进程间通信（黑马）专栏收录该内容

10 篇文章 3 订阅

订阅专栏

参考：https://blog.csdn.net/qq_33883085/article/details/88799947

一、基础知识补充：

1、为什么会有读时共享写时复制这个技术？

一个技术或者产品的产生往往是解决一种需求，比如汽车的产生是为了满足出行的需求。
参考链接：https://blog.csdn.net/weixin_39554266/article/details/82835478
参考答案：
写入时复制（英语：Copy-on-write，简称COW）是一种计算机程序设计领域的优化策略。其核心思想是，如果有多个调用者（callers）同时请求相同资源（如内存或磁盘上的数据存储），他们会共同获取相同的指针指向相同的资源，直到某个调用者试图修改资源的内容时，系统才会真正复制一份专用副本（private copy）给该调用者，而其他调用者所见到的最初的资源仍然保持不变。这过程对其他的调用者都是透明的（transparently）。

优点是如果调用者没有修改该资源，就不会有副本（private copy）被建立，因此多个调用者只是读取操作时可以共享同一份资源。

2、写时拷贝（copy-on-write）技术，也叫写时复制技术。
在计算机领域，写的意思就是修改。

二、通过fork函数建立的子进程时：——（文章一）

1、父子进程之间在刚fork后，刚刚创建子进程后：（下面的要理解背会，面试）
（1）父子相同处: 全局变量、.data、.bbs、.text、栈、堆、环境变量、用户ID、宿主目录（进程用户家目录）、进程工作目录、信号处理方式等等，即0~3G的用户空间是完全一样的。
（2）父子不同处: 1.进程ID 2.fork返回值 3.父进程ID 4.进程运行时间 5.闹钟(定时器) 6.未决信号集

2、似乎，子进程复制了父进程0-3G用户空间内容，以及父进程的PCB（内核模块在物理内存只有一份），但pid等不同。真的每fork一个子进程都要将父进程的0-3G地址空间完全拷贝一份，然后在映射至物理内存吗？
当然不是，父子进程间遵循读时共享写时复制的原则。这样设计，无论子进程执行父进程的逻辑还是执行自己的逻辑都能节省内存开销。具体见下图1和图2解释。

读时共享写时复制这一机制是由MMU（内存管理单元）来实现的。

注意：只有进程空间的各段的内容要发生变化时（子进程或父进程进行写操作时，都会引起复制），才会将父进程的内容复制一份给子进程。在fork之后两个进程用的是相同的物理空间（内存区），子进程的代码段、数据段、堆栈都是指向父进程的物理空间，也就是说，两者的虚拟空间不同，但其对应的物理空间是同一个。即父子进程在逻辑上仍然是严格相互独立的两个进程，各自维护各自的参数，只是在物理上实现了读时共享，写时复制。

（1）fork函数创建子进程后，见图1，内核只为新生成的子进程创建虚拟空间结构，它们来复制于父进程的虚拟空间结构，但是不为这些段分配物理内存，它们共享父进程的物理空间，

（2）如下图2，直到父子进程中有更改相应段（用户空间中）的行为发生时，再为子进程相应的段分配物理空间。
在这里插入图片描述

3、父子进程一直共享： 1. 文件描述符(打开文件的结构体) ，注意不是共享文件描述符本身这个整形数，而是共享同一个文件对应的FILE *结构体指针，其实一个文件打开后只能有一个FILE结构体，因此对于多有的进程都是共享这一个结构体，不仅仅只是父子进程。 2. mmap建立的映射区 (进程间通信详解)。 —》共享内存区是进程间通信的一种方式。

特别的，fork之后父进程先执行还是子进程先执行不确定。取决于内核所使用的调度算法。

三、（超级好）这个好像是Unix系统中的进程（文章二）

参考：https://blog.csdn.net/weixin_39554266/article/details/82835478
基础知识：
1、UNIX系统中进程由三部分组成：进程控制块，正文段和数据段。Linux系统中的进程的结构见其他博客。这里只是说明写时复制技术。
C程序的存储空间布局

正文段:这是由CPU执行的机器指令部分，也就是函数。正文段是可共享的，因此在存储器中只需有一个副本，只读。
初始化数据段:也叫数据段，包含程序中需明确地赋初值的变量。比如全局变量。int i = 1；
未初始化数据段：也叫BSS段，在程序执行前，内核将此段中的数据初始化为0或者空指针。比如全局变量。long sun[10]；
栈：自动变量以及每次函数调用时所需保存的信息都存放在此段中。说白就是局部变量以及函数调用的时候保存环境的地方。
堆：动态存储分配。

文章目录
1.原理
2.COW详述
2.1fork( )
2.2写时复制技术：
2.3.vfork()
2.4 fork( ) 与 vfork( ) 区别
2.5 exec( ) 函数族
3.优点
4.应用

1.原理
写入时复制（英语：Copy-on-write，简称COW）是一种计算机程序设计领域的优化策略。其核心思想是，如果有多个调用者（callers）同时请求相同资源（如内存或磁盘上的数据存储），他们会共同获取相同的指针指向相同的资源，直到某个调用者试图修改资源的内容时，系统才会真正复制一份专用副本（private copy）给该调用者，而其他调用者所见到的最初的资源仍然保持不变。这过程对其他的调用者都是透明的（transparently）。

优点是如果调用者没有修改该资源，就不会有副本（private copy）被建立，因此多个调用者只是读取操作时可以共享同一份资源。

2.COW详述
现在有一个父进程P1，这是一个主体，那么它是有灵魂也有身体的（灵魂相当于虚拟地址空间，身体相当于物理内存空间）。现在在其虚拟地址空间（有相应的数据结构表示）上有：正文段，数据段，堆，栈这四个部分，相应的，内核要为这四个部分分配各自的物理块。即：正文段块，数据段块，堆块，栈块。

代码段:顾名思义，就是存放了程序代码的数据，假如机器中有数个进程运行相同的一个程序，那么它们就以使用相同的代码段。
数据段：则存放程序的全局变量，常数以及动态数据分配的数据空间（比如用malloc之类的函数取得的空间）
堆栈段:存放的就是子程序的返回地址、子程序的参数以及程序的局部变量。
2.1fork( )
现在P1用fork()函数为进程创建一个子进程P2，内核：

（1）复制P1的正文段，数据段，堆，栈这四个部分，其内容相同。

（2）为这四个部分分配物理块，P2的：正文段－＞PI的正文段的物理块，其实就是不为P2分配正文段块，让P2的正文段指向P1的正文段块，数据段－＞P2自己的数据段块（为其分配对应的块），堆－＞P2自己的堆块，栈－＞P2自己的栈块。如下图所示：同左到右大的方向箭头表示复制内容。

在这里插入图片描述
2.2写时复制技术：
内核只为新生成的子进程创建虚拟空间结构，它们来复制于父进程的虚拟空间结构，但是不为这些段分配物理内存，它们共享父进程的物理空间，当父子进程中有更改相应段的行为发生时，再为子进程相应的段分配物理空间。
在这里插入图片描述

2.3.vfork()
这个做法更加火爆，内核连子进程的虚拟地址空间结构也不创建了，直接共享了父进程的虚拟空间，当然了，这种做法就顺水推舟的共享了父进程的物理空间;

vfork系统调用不同于fork，用vfork创建的子进程共享地址空间，也就是说子进程完全运行在父进程的地址空间上，子进程对虚拟地址空间任何数据的修改同样为父进程所见。但是用 vfork创建子进程后，父进程会被阻塞直到子进程调用exec或exit。这样的好处是在子进程被创建后仅仅是为了调用exec执行另一个程序时，因为它就不会对父进程的地址空间有任何引用，所以对地址空间的复制是多余的，通过vfork可以减少不必要的开销。

在这里插入图片描述
2.4 fork( ) 与 vfork( ) 区别
fork( ) : 子进程拷贝父进程的数据段，代码段
vfork ( ) : 子进程与父进程共享数据段
fork ( ) : 父子进程的执行次序不确定
vfork ( ) : 保证子进程先运行，在调用exec 或exit 之前与父进程数据是共享的,在它调用exec或exit 之后父进程才可能被调度运行。
vfork （）保证子进程先运行，在它调用exec 或exit 之后父进程才可能被调度运行。如果在
调用这两个函数之前子进程依赖于父进程的进一步动作，则会导致死锁。
2.5 exec( ) 函数族
如果要用exec调用，首先应该fork一个新的进程

在Linux中要使用exec函数族。系统调用execve（）对当前进程进行替换，替换者为一个指定的程序，其参数包括文件名（filename）、参数列表（argv）以及环境变量（envp）。exec函数族当然不止一个，但它们大致相同，在 Linux中，它们分别是：execl，execlp，execle，execv，execve和execvp

一个进程一旦调用exec类函数，它本身就"死亡"了，系统把代码段替换成新的程序的代码，废弃原有的数据段和堆栈段，并为新程序分配新的数据段与堆栈段，唯一留下的，就是进程号，也就是说，对系统而言，还是同一个进程，不过已经是另一个程序了。（不过exec类函数中有的还允许继承环境变量之类的信息。）

3.优点
传统的fork()系统调用直接把所有的资源复制给新创建的进程。这种实现过于简单并且效率低下，因为它拷贝的数据也许并不共享，更糟的情况是，如果新进程打算立即执行一个新的映像，那么所有的拷贝都将前功尽弃。

Linux的fork()使用写时拷贝（copy-on-write）页实现。写时拷贝是一种可以推迟甚至免除拷贝数据的技术。内核此时并不复制整个进程地址空间，而是让父进程和子进程共享同一个拷贝。**只有在需要写入的时候，数据才会被复制，**从而使各个进程拥有各自的拷贝。也就是说，资源的复制只有在需要写入的时候才进行，在此之前，只是以只读方式共享。

这种技术使地址空间上的页的拷贝被推迟到实际发生写入的时候。在页根本不会被写入的情况下—举例来说: fork() 后立即调用exec()—它们就无需复制了。fork()的实际开销就是复制父进程的页表以及给子进程创建惟一的进程描述符。在一般情况下，进程创建后都会马上运行一个可执行的文件，这种优化可以避免拷贝大量根本就不会被使用的数据（地址空间里常常包含数十兆的数据）。由于Unix强调进程快速执行的能力，所以这个优化是很重要的。

4.应用
1.虚拟内存管理中的写时复制
一般把这种被共享访问的页面标记为只读。当一个task试图向内存中写入数据时，内存管理单元（MMU）抛出一个异常，内核处理该异常时为该task分配一份物理内存并复制数据到此内存，重新向MMU发出执行该task的写操作。

2.数据存储中的写时复制
Linux等的文件管理系统使用了写时复制策略。
数据库服务器也一般采用了写时复制策略，为用户提供一份snapshot。

3.软件应用中的写时复制
C++标准程序库中的std::string类，在C++98/C++03标准中是允许写时复制策略。但在C++11标准中为了提高并行性取消了这一策略。 GCC从版本5开始，std::string不再采用COW策略。

博雅勇士

关注

6
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
进程专题02篇———进程共享（读时共享写时复制copy-on-write）原理详解——超经典

参考：https://blog.csdn.net/qq_33883085/article/details/88799947写时拷贝（copy-on-write）技术父子进程之间在刚fork后。父子相同处: 全局变量、.data、.bbs、.text、栈、堆、环境变量、用户ID、宿主目录（进程用户家目录）、进程工作目录、信号处理方式等等，即0~3G的用户空间是完全一样的。父子不同处: 1.进程I...
复制链接

扫一扫