北邮 操作系统(三)

第三章 多进程

前面已经介绍过,操作系统是管理计算机硬件的软件系统,本章开始将逐步讨论操作系统如何管理各种计算机硬件;

本章讨论的是操作系统如何管理CPU,从使用CPU开始,使用CPU最直观的方式就是 —— 将一段程序的初始地址设置给PC指针,然后CPU就开始不断地“取指一执行”,CPU也就被使用起来了。但是这样的简单方式会导致CPU效率低下,我们给出了解决方法 —— 并发;

在并发这一基本思想下,将分析给出程序执行起来的样子,并分析执行起来的程序和静态程序之间的本质差别。为了描述这种本质区别,进程的概念被提出来,多进程视图也随之出现了。由于CPU是计算机硬件的核心,多进程视图也就自然成为操作系统的核心视图;

1.CPU工作原理

CPU的工作原理就是不断地重复执行“取指-执行”,因此想要让CPU运转起来只需要将一段程序放入内存中,接着将PC指针设置为这段程序的起始地址,接着CPU便自动循环“取指-执行”开始工作;

这个直观方法也很容易实现:

  • 第一步,在内存中分割出一些区域(内存管理章节);
  • 第二步,调用磁盘驱动和文件系统(文件系统章节)将一个程序的可执行程序读入到分配好的内存区域中;
  • 第三步,将这段内存区域的首地址即存储程序第一条指令的内存地址赋值给CS:EIP;

当然这样使用CPU必然存在很大的问题,在实际场合中这样的管理会使得CPU的利用率变得非常低,解决办法就是利用 —— 并发(在并发的思想下,分析程序执行起来的样子并对比执行起来的程序和静态程序之间的本质差别,为了描述这种本质区别提出了进程的概念,基于进程的概念提出多进程视图的概念);

类比现实世界中的烧水问题,烧水的过程中可以利用这段时间去做一些别的事,并发即多个程序同时出发、交替执行,当CPU采用并发思想之后可以一直处于忙碌状态;

2.进程与多进程视图

2.1 进程的概念

在采用了并发思想之后,操作系统高效管理CPU就具体实现为“在多段程序之间来回切换”,要实现这种切换,只修改PC指针(即修改寄存器CS:EIP)是不够的,不仅要修改PC指针,同时还要将曾经执行的信息保存起来,于是需要引入新的数据结构以保证程序的正确执行并实现多个执行的程序之间来回切换,这个数据结构保存了该程序当前执行位置、执行现场等重要信息;

介绍这种数据结构(PCB)之前,我们先介绍一个概念 —— 进程,进程用来描述一个程序及其执行过程中的信息,即描述一个执行中的程序;

  • 程序:程序是静态的指令、数据等;
  • 进程:进程是执行起来的程序,可以理解为一个程序的实例(类比于面向对象编程中的类和类对象);

进程描述的是“程序以及反映程序执行信息的数据结构的总和”,该数据结构也就是常说的进程控制块(process control block,PCB);


Q:进程与PCB之间的关系?进程实体和进程映像呢?

A:

  • 进程映像/进程实体=代码段+数据段+PCB,进程映像是静态的,进程是动态的;
  • 进程是进程映像/进程实体的运行过程,是系统进行资源分配和调度的一个独立单位;
  • 进程控制块PCB是存放进程的管理和控制信息的数据结构,进程控制块PCB是进程存在的唯一标志(类似于身份证);
  • 所谓创建进程实质上就是创建进程映像中的PCB,撤销进程实质上是撤销进程的PCB;

Q:PID和PCB之间的关系?

A:

  • PID是操作系统中的进程标识符,操作系统中每打开一个程序都会创建一个进程ID也就是PID,在运行时每个进程有唯一的PID编号,进程终止后PID标识符会被系统回收利用;
  • PCB是是操作系统中最重要的记录性数据结构;
  • PID存在并不能说明进程一定创建完成并存在,因此我们得出结论 —— PCB是进程存在的唯一标志!

传统操作系统中的进程定义为:进程是进程实体的运行过程,是系统进行资源分配和调度的一个独立单位;

简单来说,进程就是一个程序的运行时,包含了一些权限控制,进程之间不共享数据,每个进程有自己独立的地址空间,一个进程至少包含一个或多个线程;

2.1.1 进程的特征

进程的基本特征是对比单个程序的顺序执行提出的,也是对进程管理提出的基本要求:

  • 动态性:进程具有一定的生命周期,是动态产生、变化和消亡;
  • 并发性:指多个进程实体同时存于内存中,能在一段时间内同时运行;
  • 独立性:指进程实体是一个能够独立运行、独立获得资源和独立接受调度的基本单位;
  • 异步性:进程按照各自独立的、不可预知的速度向前推进,为了避免异步,在操作系统中必须配置相应的进程同步机制;
  • 结构性:结构上看,进程实体是由程序段、数据段以及进程控制块三部分组成;
2.1.2 进程的状态

(我们在下面还会涉及进程的状态,但是那个地方为了简化分析所以就只讨论最基本的三种情况,这里我们详细介绍五种状态的进程)

  • 运行态:当前占有CPU、正在执行的进程状态;
  • 就绪态:一个进程具备所有可执行的条件,只要获得了CPU就能开始执行;
  • 阻塞态:也称为睡眠态或等待态,指进程缺少某些条件(比如磁盘正在读写、打印机忙等),即使分配了CPU也无法执行的状态;
  • 创建态:进程正在被创建,尚未转到就绪态;
  • 结束态:进程需要结束运行时,系统首先必须置该进程为结束态,再进一步处理资源释放和回收等工作;
2.1.3 进程的地址空间

地址空间分为物理地址空间(内存、磁盘)和虚拟地址空间;

因为操作系统的缘故,对一个进程/程序来说似乎独占所有硬件资源,一般一个进程会分为如下几个段,其中堆向上生长,栈向下生长(注意这里的地址空间是虚拟地址空间,之后也会讲,分段常用于用户视图)

下面这段程序在load进入内存之后,变量将被分配到不同的段

结论:一个可执行程序已经指定好了段的大小等信息;

2.2 多进程视图

有了进程的概念后,可以应用进程的概念对CPU管理做描述:CPU管理的最终结构概括为操作系统启动多个进程,并能够在多个进程之间调度/切换,从而实现CPU高效管理;

(1)在操作系统中现在有三个进程,其PID分别是1、2、3;

(2)现在正在执行的是2号进程;

(3)进程1执行到53地址处停了下来,进程3执行到250地址处停了下来,进程1停下来的原因是进程1用完了时间片,进程3停下来的原因是进程3要等到磁盘读写完成;

(4)进程1和进程3停下来的执行现场分别存放在各自的PCB中;

(5)操作系统通过这些PCB可以感知、了解并控制各个进程,操作系统对进程的管理关键在于对这些PCB的管理;

多进程视图是操作系统的核心视图.操作系统在从开机启动到最后关机的全部运行过程中都要围绕这个多进程视图工作;

一个进程执行完毕以后可以调用exit()来退出自己,但shell不会调用exit()退出自己,除非关机。因此shell进程会一直执行,不断创建新的进程,并用这些新进程完成各种各样的任务。在操作系统最终关机时,会将系统中所有进程杀死;

编写操作系统中的进程管理模块,需要做到以下两点:

  • 从上层用户角度想象系统中的多个进程,要在头脑里形成这样的画面,操作系统里有多个进程,每个进程各司其职,要做新的工作就会在系统中创建出的新进程等;
  • 从下层系统内核角度感知和控制系统中的多个进程;

3.进程控制

在操作系统中,一般把进程控制用的程序段称为原语,原语的特点是执行期间不允许中断,它是一个不可分割的基本单位;

3.1 进程的创建

允许一个进程创建另一个进程,此时创建者称为父进程,被创建的进程称为子进程:

  • 子进程可以继承父进程所拥有的资源;
  • 子进程被撤销的时候需要将从父进程那里获得的资源归还给父进程;
  • 撤销父进程必须同时撤销其所有的子进程;

我们简单介绍操作系统创建一个新进程的过程(即给出一段创建原语):

1.为新进程分配唯一的PID并申请一个空白的PCB,若PCB申请失败则创建失败;
2.为新进程的程序和数据以及用户栈分配必要的内存空间,若资源不足不会导致创建失败,而是处于阻塞态等待内存资源;
3.初始化PCB,主要包括初始化标志信息、初始化处理机状态信息以及初始化处理机控制信息、进程优先级等;
4.若就绪队列能够接纳新进程则将新进程插入就绪队列等待被调度运行;

3.2 进程的终止

引起进程终止的事件有:

  • 正常结束:表示进程的任务完成并准备退出运行;
  • 异常结束:进程运行过程中发生异常导致程序无法继续运行;
  • 外界干预:进程因为外界的请求而终止运行;

撤销原语如下:

1.根据被终止进程的标识符检索PCB,从中读出该进程的状态;
2.若被终止的进程处于执行状态则立即终止该进程的执行,将处理机的资源分配给其他进程;
3.若该进程有子孙进程则将其所有子孙进程终止;
4.将该进程拥有的全部资源归还给其父进程或操作系统;
5.将该PCB从所在队列删除;

3.3 进程的阻塞和唤醒

进程的阻塞是进程自身的一种主动行为,只有处于运行状态的进程才可能转换为阻塞态,阻塞原语的执行过程如下:

1.找到将要被阻塞进程的PID对应的PCB;
2.若该进程为运行态则保护其现场并将其状态转换为阻塞态;
3.把该PCB插入相应事件的等待队列,将处理机资源调度给其他就绪进程;

当被阻塞进程需要的资源到达,由相关进程调用唤醒原语,将等待该事件的进程唤醒,唤醒原语如下:

1.在该事件的等待队列中找到相应进程的PCB;
2.将其从等待队列中移出,并置其状态为就绪态;
3.把该PCB插入就绪队列,等待调度程序调度;

注意:Block 原语和Wakeup 原语是一对作用刚好相反的原语,必须成对使用。Block原语是由被阻塞进程自我调用实现的,而Wakeup原语则是由一个与被唤醒进程合作或被其他相关的进程调用实现的;

3.4 进程的切换

多进程视图工作的核心是多个进程之间的来回切换,这也是并发的基本含义,操作系统实现多进程视图需要解决如下两点:

  • 什么时候切换;
  • 具体如何切换;

切换的时机就是当CPU出现空闲的时候,这种空闲点也被称为调度点,调度点可以是当前进程在执行过程中产生的如exit(),也可以是操作系统强行加入的如进程分配的时间片耗尽;

//一个调度点的实例代码
某个进程{
 	启动磁盘写;
    pCur.state='W';//将进程状态修改为阻塞态
    将pCur放在DiskWaitQueue;//pCur就是用于保存 “CPU中当前进程执行现场” 的PCB结构,当然它就是当前进程的PCB,便于将来能够切换回当前进程
    schedule();//调用schedule函数完成进程切换
}

操作系统调用函数schedule()实现切换,其实现原理如下:

  1. 从就绪队列中选出下一个进程的PCB,我们称为pNew;
  2. 用PCB结构pNew中存放的执行现场去替换CPU中的PC、AX等寄存器;
  3. 为了能够切换回当前进程,切换之前还应将CPU中的“当前进程执行现场”保存在当前进程的PCB结构中,该PCB结构我们称为pCur;

这其中如何选择pNew需要精心设计算法,如果只是简单的选择就绪队列首部的进程作为下一个进程,这样公平但是对于某些应当需要优先执行的进程来说非常致命;

简单给出schedule函数的基本代码结构

schedule(){
    pNew=getNext(ReadyQueue);
    switch_to(pCur,pNew);
}
switch_to(pCur,pNew){
    //保存当前进程的PCB结构
    pCur.ax=CPU.ax;
    pCur.bx=CPU.bx;
    ...
    //用pNew中的执行现场替换CPU中的寄存器
    CPU.ax=pNew.ax;
    CPU.bx=pNew.bx;
}

4.进程组织

要论述操作系统是如何实现多进程视图(前面已经给出过图示)的,第一步要解决的问题就是在计算机中如何组织多个进程;

操作系统管理进程的关键就是管理进程对应的PCB数据结构,所以很容易就能想到,组织多个进程就是用合适的数据结构来管理这些PCB;

PCB之间存在简单的线性关系,简单而高效的方式就是将这些PCB组织成队列,并且在管理进程时需要区分进程位于哪个队列,根据进程状态概念可以分类描述操作系统中的进程:

  • 运行态:当前占有CPU、正在执行的进程状态;
  • 就绪态:一个进程具备所有可执行的条件,只要获得了CPU就能开始执行;
  • 阻塞态:也称为睡眠态或等待态,指进程缺少某些条件(比如磁盘正在读写、打印机忙等),即使分配了CPU也无法执行的状态;

基于单CPU的背景,因此只有一个CPU意味着只会有一个处于运行态的进程,多个阻塞队列(多种等待事件),一个就绪队列(都在等待CPU),故形成下图所示多进程基本组织方式

上图类似于一张合照,是某一时刻下多个进程在操作系统中的样子,当然利用进程状态还可以描述一个进程在其执行过程中的演化过程(该过程常被称为进程的生存周期)

4.1 进程隔离

尽管多个进程同时在内存中交替执行可以提高CPU的使用效率,但是同时在内存中的多个进程也会相互影响(比如某个进程把另一个进程的内存地址给修改了);

解决上述问题的办法就是使用地址隔离

进程操作的地址并不是真的物理内存地址,而是通过一个映射表对应到一个真实的物理地址,这也是需要用GDT表和页表来翻译CS:EIP的根本原因;

操作系统给每个进程分配的真实的内存区域是只属于该进程的、互相不重叠的,就算进程1和进程2同时访问的地址是100,但是通过映射表后访问的真实地址其实是2100和1100;

5.进程通信

多进程之间不仅需要隔离,更需要合作,最基本的进程间合作模型是一个进程要往一个缓存区写数据,而另外一个进程要从缓存区里读数据。此时就需要一个合适的进程间通信机制与合作机制;

实现进程间通信的方法很多,可以读写同一个数据库、文件、共享内容以及一段内核态内存等;

真正困难的是提供合适的进程间合作机制,如果没有一个良好的机制可能导致一些问题(如一边写一边读,但是缓存已经满了,于是写不进去导致信息丢失)。我们将这种基本进程间合作模型(一个进程写共享空间,另一个进程读共享空间)称作“生产者-消费者”模型:

  • 往共享缓存区中写的进程被称为生产者进程;
  • 从共享缓存区中读的进程被称为消费者进程;

这两个进程通过共享缓存区进行通信与合作,主要依靠变量counter来完成(counter等于不同的值的时候生产者和消费者会进行不同的行为),但是因为多个进程在操作系统中交替执行,调度顺序完全不可控,因为时间片到时、每条指令要具体执行多少时间、在什么时刻进行I/O操作都是无法预料的,很可能本来预期的counter变量值因为不可控因素发生语义错误 —— 针对这个问题,解决方法是counter要么全部修改完成,要么一点也不修改,这就是临界区的概念;(不用强行理解,后面进程同步还会介绍)


(上面说了那么多好像也不是很清楚,我们结合王道书再总结一下)

进程通信指的是进程之间的信息交换,PV操作是低级通信方式,高级通信方式(以较高的效率传输大量数据的通信方式)主要有以下三类:

  • 共享存储:通信的进程之间存在一块可以直接访问的共享空间,需要使用同步互斥工具对共享空间的读写进行控制,共享存储分为两种:
    • 低级方式的共享是基于数据结构的共享;
    • 高级方式的共享是基于存储区的共享;

  • 消息传递:消息传递系统中,进程间的数据交换以格式化的消息为单位,进程通过系统提供的发送消息和接收消息两个原语进行数据交换:
    • 直接通信方式:发送进程直接把消息发送给接收进程(实质上是挂在接收进程的消息缓冲队列上);
    • 间接通信方式:发送进程把消息发送到某个中间实体(信箱),接收进程从中间实体取得消息;

  • 管道通信:管道是指用于连接一个读进程和一个写进程以实现它们之间的通信的一个共享文件,又称为pipe文件,管道可以理解为共享存储的优化和发展;

注意:从管道读数据是一次性操作,数据一旦被读取,它就从管道中被抛弃,释放空间以便写更多的数据。管道只能采用半双工通信,即某一时刻只能单向传输。要实现父子进程双方互动通信,需要定义两个管道。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坂.y

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值