进程、线程
1. 进程
1.1 为什么要引入进程
在早期的单道批处理系统中,内存中仅能有一道程序运行,只有该程序运行结束之后,才能调入下一道程序。CPU有大量的时间是在空闲等待 I/O 完成。资源利用率很低。
比如说,我们想在计算机上运行QQ和微信,那么只有将QQ关闭后,才能打开微信在单道批处理系统中。但是在现在的操作系统中,QQ和微信显然不是以这样的方式运行,而是一种宏观上并行执行的方式。
当多个程序并发执行时,内存中同时存在多道程序,及其代码、数据。那么操作系统如何管理及找到这些数据呢?
为解决上述问题,完成各程序并发执行,从而引入了进程、进程实体的概念。
1.2 进程的定义
首先我们介绍一下什么是程序?我们敲的printf("hello world")
,便可以看作是程序,程序是指令序列的集合,具有静态性。
而进程则是正在执行的程序实例,具有动态性。执行程序时,操作系统会创建一个 进程实体 PCB
给运行中的程序。
在多道批处理系统中,操作系统需要管理及找到各个程序所对应的数据,而进程实体的作用便是用来描述进程的各种信息(如程序代码存放位置,可以使用的资源有哪些等)。
PCB
中包含如下信息:
- 进程描述信息
进程标识符 PID
用户表示符 UID
- 进程控制和管理信息
进程状态
进程优先级
- 资源分配清单
程序段指针
数据段指针
键盘
鼠标
- 处理机相关信息
各种寄存器
1.3 进程的组织
在一个系统中,通常有数十、数百乃至数千个PCB
。为了能对他们加以有效的管理,应该用适当的方式把这些PCB
组织起来。
链接方式
按照进程状态将PCB分为多个队列(如就绪队列、阻塞队列),操作系统持有指向各个队列的指针
索引方式
根据进程状态的不同,建立几张索引表操作系统持有指向各个索引表的指针
1.4 进程的特征
相比于程序,进程有以下特征:
- 动态性(进程是程序的一次执行过程,是动态地产生、变化和消亡的)
- 并发性(内存中有多个进程实体,各进程可并发执行)
- 独立性(进程是能独立运行、独立获得资源、独立接受调度的基本单位)
- 异步性(各进程按各自独立的、不可预知的速度向前推进,操作系统要提供"进程同步机制”来解决异步问题)
- 结构性(每个进程都会配置一个
PCB
。结构上看,进程由程序段、数据段、PCB
组成)
1.5 进程的状态及转化
在程序执行过程中,有时进程正在被 CPU
处理,有时又需要等待 CPU
服务。为了方便对各个进程的管理,操作系统需要合理地划分几种状态。
- 创建态:进程正在被创建,操作系统为进程分配资源、初始化
PCB
- 就绪态:已经具备运行条件,但由于没有空闲
CPU
,而暂时不能运行 - 运行态:占有
CPU
,并在CPU
上运行 - 阻塞态:因等待某一事件而暂时不能运行
- 终止态:进程正在从系统中撤销,操作系统会回收进程拥有地资源、撤销
PCB
1.6 进程控制
进程控制的主要功能是对系统中的所有进程实施有效的管理,它具有创建新进程、撤销已有进程、实现进程状态转换等功能。
如何实现进程控制?
用 原语 实现进程控制。用于的特点是执行期间不允许中断,只能一气呵成。
进程控制的原语主要做以下三类工作:
- 更新
PCB
中的信息(如修改进程状态标志、将运行环境保存到PCB
、从PCB
恢复运行环境)
a. 所有的进程控制原语一定都会修改进程状态标志
b. 剥夺当前运行进程的CPU
使用权必然需要保存其运行环境(即保存当前进程执行到行代码、数据是啥等)
c. 某进程开始运行前必然要恢复其运行环境(恢复上面保存的数据等,使其可以继续执行)
- 将
PCB
插入合适的队列 - 分配/回收资源
原语属于特权指令,所以需要从用户态切换到内核态执行,而内核态主要是负责执行操作系统相关的代码,所以每一次切换都需要保存当前进程的上下文,而切换回用户态又需要恢复上下文,这便导致切换代价高。
1.7 进程通信
2. 线程
我们引入进程的目的,是为了提高 CPU 的利用率,而线程的引入则是为了进一步提高并发度。
想必大家在使用 QQ 的时候,都有过这样的场景,一边发文件,一边进行视频。这便是线程在发挥作用,如果没有线程,我们只能发完文件,才能与别人进行视频。
线程可以看作程序中的一条指令顺序执行流(一条路用于发文件,另一条路用于视频)。
可以把线程理解为“轻量级进程”。线程是一个基本的CPU执行单元,也是程序执行流的最小单位。
2.1 线程带来的变化
资源分配、调度:
传统进程机制中,进程是资源分配、调度的基本单位。
引入线程后,进程是资源分配的基本单位,线程是调度的基本单位。
并发性:
传统进程机制中,只能进程间并发。
引入线程后,各线程间也能并发,提升了并发度。
系统开销:
传统的进程间并发,需要切换进程的运行环境,系统开销很大。
线程间并发,如果是同一进程内的线程切换,则不需要切换进程环境,系统开销小。
引入线程后,并发所带来的系统开销减小。
2.2 线程的好处
线程之间能够方便、快速的共享信息。只需要数据复制到共享(全局或堆)变量中即可,而进程间的信息难以共享。由于进程间并未共享内存,因此必须采用 IPC 方式,在进程间进行信息交换。
创建线程比创建进程通常快10倍甚至更多。
2.3 线程的实现方式
2.3.1 用户级线程
用户级线程由应用程序通过线程库实现。
所有的线程线程管理工作都由应用程序负责(包括线程切换)用户级线程中,线程切换可以在用户态下即可完成,无需操作系统干预。
在用户看来,是有多个线程。但是在操作系统内核看来,并意识不到线程的存在。(用户级线程对用户不透明,对操作系统透明)。
“用户级线程”就是“从用户视角能看到的线程”。
2.3.2 内核级线程
内核级线程管理工作由操作系统内核完成。线程调度、切换等工作都由内核负责,因此内核级线程的切换必然需要在核心态下才能完成。
“内核级线程”就是“从操作系统内核视角看能看到的线程”。
2.3.3 组合方式
操作系统只“看得见”内核级线程,因此只有内核级线程才是处理机分配的单位。
在上图中,该进程由三个用户级线程、两个内核级线程构成。在用户看来,在这个进程中有三个线程。但即使该进程在一个4
核处理机的计算机上运行,也最多只能被分配到两个核,最多只能有两个用户线程并行指向。
2.4 多线程模型
在组合模型中,同时支持用户级线程核内核级线程,由此由几个用户级线程映射到几个内核级线程的问题引出了“多线程模型问题”。
2.4.1 多对一
多对一模型:多个用户级线程映射到要给内核级线程。每个用户进程只对应一个内核级线程。
优点:用户级线程的切换在用户空间即可完成,不需要切换到核心态,线程管理的系统开销小,效率高。
缺点:当一个用户级线程被阻塞后,整个进程都会被阻塞,并发度不高。多个线程不可再多核处理机上并行运行。
2.4.2 一对一
一对一模型:一个用户级线程映射到一个内核级线程。每个用户进程都有与用户级线程同数量的内核级线程。
优点:当一个线程被阻塞后,别的线程还可以继续执行,并发能力强。多线程可在多核处理机上并行执行。
缺点:一个用户进程会占用多个内核级线程,线程切换由操作系统内核完成,需要切换到核心态,因此线程管理的成本高,开销大。
2.4.3 多对多
多对多模型: n 用户及线程映射到 m 个内核级线程(n>=m)。每个用户进程对应 m 个内核级线程。
克服了多对一模型并发度不高的缺点,又克服了一对一模型中一个用户进程占用太多内核级线程,开销太大的缺点。
3、协程
目前,协程也开始逐渐流行起来。比如Golang
中开启一个协程即为简单,只需要一个go
关键字即可,并且java
中也正在计划引入协程。
3.1 协程是什么
协程(Coroutines
)是一种比线程更加轻量级的存在,正如一个进程可以拥有多个线程一样,一个线程可以拥有多个协程。
协程不是被操作系统内核所管理的,而是完全由程序所控制,也就是在用户态执行。这样带来的好处是性能大幅度的提升,因为不会像线程切换那样消耗资源。
协程不是进程也不是线程,而是一个特殊的函数,这个函数可以在某个地方挂起,并且可以重新在挂起处外继续运行。所以说,协程与进程、线程相比并不是一个维度的概念。