《现代操作系统》学习笔记(一):进程与线程

一、进程与线程的简单回顾

进程与线程的简单回顾

《Modern Operating System》:进程就是一个正在执行的程序的实例,包括程序计数器、寄存器和变量的当前值。

每一个进程都拥有自己独立的地址空间(这源于虚拟内存技术),其中有程序和数据以及独立的用户栈和独立的堆空间等。例如在UNIX系统中,可以调用系统级函数fork()来创建一个子进程,在还未加载新的代码之前,此时子进程与父进程拥有几乎完全相同的内存映像、同样的环境字符串和同样的打开文件,可以通过execve()来重新加载新的程序(可执行文件),但是execve仅仅只是分配了虚拟页,此时并没有实际将程序从磁盘中调入内存,只有当某一条指令触发了缺页故障的时候,此时将陷入内核态,将该条指令虚拟页所指定的内容调入物理内存,并且修改相应的PTE条目(Page Table Entry),然后系统调用返回到这条指令,再一次执行该指令时就不再会触发缺页故障了(详情可参考机械工业出版社的《深入理解计算机系统》第三版)。
线程不准确地理解的话,可以将其看作一种轻量级的进程,同一个进程中的线程都有完全一样的地址空间,共享同样的全局变量,由于各个线程都可以放你问进程地址空间中的每一个内存地址,所以一个线程可以读、写甚至清除另一个线程的堆栈,也就是说,线程之间是没有保护的。除了共享地址空间外,还共享同一个打开文件集、子进程、定时器以及相关信号(因为这些基本上都是操作系统维护在进程的上下文中的)


为什么需要线程?

  1. 线程拥有共享同一个地址空间和所有可用数据的能力,但是多进程模型无法做到;
  2. 线程比进程更轻量级,创建线程的开销比创建进程的开销要小得多(无论是时间上还是空间上),也更容易撤销;
  3. 性能。若多个线程都是CPU密集型的,那么不能获得性能上的增强(线程的调度也是需要开销的),但是如果存在着大量的计算和I/O处理,拥有多个线程允许这些活动彼此重叠进行,从而会加快应用程序执行的速度

线程包的实现方式

线程包有两种实现方式:在用户空间中和在内核中。除此之外还有混合实现方式。

  1. 第一种实现方式就是把整个线程包放在用户空间中,而内核对线程包一无所知。在这种方式下,进程中有一个运行时系统,管理着该进程特有的线程表(thread table),用来跟踪该进程中的线程。
  2. 第二种实现方式就不需要运行时系统了,每个进程也不要存储和管理各自的线程表了,相反,在内核当中有用来记录系统中所有线程的线程表(进程通常运行在用户模式下,对内存的访问通常是受限的)。当某个线程希望创建一个新线程或者撤销一个已有线程时,它进行一个系统调用(系统调用实际上是一种异常控制流,注意和Java的异常区别开来,中断、陷阱、故障等实际上都是一种异常控制流),该系统调用将切换到内核模式(内核模式拥有最高访问权限),并且通过对线程表的更新完成线程创建或撤销工作。

两种线程包的实现方式各自的优缺点总结

在用户空间中实现线程包:

  • 优点:
    1. 用户级线程包可以在不支持线程的操作系统上实现;
    2. 允许每个进程有自己定制的调度算法;
    3. 当某个线程做了一些会引起在本地阻塞的事情之后,运行时系统将会调度该进程中的其它线程来运行,并且如果机器有一条保存所有寄存器的指令和另一条装入全部寄存器的指令,那么整个线程的切换就可以在几条指令内完成,这比内核级线程的切换的代价要小得多(因为内核级线程的切换首先陷入内核,切换上下文,这个开销是巨大的);
  • 缺点:
    1. 阻塞系统调用。如果进程P中的某一个线程产生了一个阻塞系统调用,那么由于会进行上下文的切换,整个进程都将被阻塞,从而导致该进程中的其它线程也被迫进入阻塞状态,这显然违背了线程本身出现的原因;
    2. 缺页中断问题。在《深入理解计算机系统》这本书中,对程序的加载进行了详细的解释与说明,以UNIX系统为例,调用execve()之后,只是分配了虚拟页,程序实际上还并没有加载进内存,详细可自行查阅。如果某个程序调用或者跳转到了一条不在内存上的指令时,将会引发缺页故障,从而导致整个进程陷入内核态,然后内核异常处理程序将对应的虚拟页调入物理内存当中,并且修改相应的PTE,然后返回到引发该缺页故障的指令,该指令将会重新执行,这一次就不会再触发缺页故障了。显然,缺页中断将会导致整个进程中的线程都被阻塞直到缺页故障被处理完毕;
    3. 在用户级线程包中,如果一个线程开始运行,那么在该进程中的其它线程就不能运行,除非第一个线程自动放弃CPU。

在内核中实现线程:

  • 优点:
    1. 不再需要运行时系统了,每个进程中也没有线程表,相反,线程统一由内核维护在内核区域中;
    2. 解决了阻塞系统调用的问题。所有能够阻塞线程的调用都以系统调用的形式实现,当一个线程阻塞时,内核根据相应的调度算法而调度其它就绪状态的线程的运行;
    3. 解决了缺页中断问题。同样的,当一个线程引发了缺页故障需要将所需要的页面调入物理内存时,内核可选择调度其它线程来运行;
  • 缺点:
    1. 信号(Signal)是发送给进程的(在进程的上下文中由内核维护着一个bind向量,详情请查看《深入理解计算机系统》),当一个信号到达的时候,那么这个信号应该由哪一个线程来处理?
    2. 当一个进程创建了一个子进程的时候,新的进程是应该拥有与父进程一样的线程吗?等等这些问题都是值得考虑的。

二、进程间通信

竞争条件、互斥与临界区

《Modern Operating Systems》:

  • 竞争条件(Race Condition)即两个或者多个进程读写某些共享数据,而最后的结果取决于进程运行的精确时序。
  • 互斥(Mutual Exclusion)即以某种手段确保当一个进程在使用一个共享变量或文件时,其它进程不能做同样的操作。
  • 临界区(Critical Region)即对共享内存进行访问的程序片段。

解决共享数据的并发进程需要满足的条件

  1. 任何两个进程不能同时处于其临界区中;
  2. 不应对CPU的速度和数量做任何假设;
  3. 临界区外运行的进程不得阻塞其它进程;
  4. 不能够使进程无限期等待进入临界区;

互斥的实现方式概述

在软件层面上和硬件层面上都可以实现互斥:

  • 软件层面
    • 锁变量
    • 严格轮换法(Busy Waiting)
    • Peterson解法(Busy Waiting)
  • 硬件层面
    • 屏蔽中断(仅适用于单处理器操作系统)
    • 专用机器指令(例如TSL指令,XCHG指令,保证了操作的原子性)
    • Semaphore信号量(很重要,既能够实现互斥也能够实现同步)
    • 管程(一个编程语言概念,不是所有语言都支持管程,Java支持)
    • 消息传递(Message Passing)
互斥的实现方式详解:软件层面
  • 锁变量:设定有一个进程间共享锁,初始值为0,当一个进程想要进入临界区时,首先测试这把锁,如果值为0,则该进程将其设置为1并且进入临界区;若为1,则该进程将等待直到其值变为0。
    • 实际上并没有解决互斥问题,仍然存在竞争条件,仍有可能导致多个进程同时进入临界区之中。
  • 严格轮换法:共享一个整型变量turn,初始值为0,用于记录轮到哪个进程进入临界区,并且检查或共享内存。开始时,进程0检查其值为0,于是进入临界区,进程1也发现其值为0,所以在一个等待循环中不停地测试turn,看其值何时变为1。(本质上就是busy waiting)
    • 显然,假设进程0在非临界区中运行的速度很慢而导致其慢于进程1的运行速度,当进程0离开临界区之后并且将turn置为1,然后进程1进入临界区并且很快执行完毕,那么进程1将会由于进程0的非临界区代码的运行速度太慢而迟迟不将turn置为1,从而被阻塞,换而言之,进程1是被一个临界区外之外的进程所阻塞。这显然违反了之前所说的四个条件中的第三个。
/* 
** 严格轮换法示意
** from Modern Operating Systems
*/
/* 进程0 */
while(true){t
	while(turn!=0);
	critical_region(); // 临界区
	turn=1;
	noncritical_region();
}

/* 进程1 */
while(true){
	while(turn!=1);
	critical_region(); // 临界区
	turn=0;
	noncritical_region();
}
互斥的实现方式详解:硬件层面
  • 屏蔽中断:即使每个进程在刚刚进入临界区后立即屏蔽所有中断,并且在离开临界区时打开中断。屏蔽中断后,时钟中断也被屏蔽,因此不会发生进程的切换,从而也就实现了进程的互斥。
    • 缺点是仅仅适用于单处理系统,但是屏蔽中断对于操作系统本身而言是一项很有用的技术。
  • 专用机器指令
    • 优点是:1、不管是在单处理器还是多处理器上,对任意数量的进程都使用;2、原理很简单并且很容易实现;3、能够支持多个临界资源访问的控制;
    • 缺点是:1、忙等待;2、可能会有饥饿现象(Starvation);3、可能导致死锁;
  • Semaphore信号量:信号量是一种信号变量,其中它有一个整型值,并且还有一个队列表明阻塞在该信号量上的进程。(注:后续的内容在术语上与《现代操作系统》有出入,但是原理一致)
    提供了wait和signal两个通信原语(即具有原子性,无法被中断),即以前所说的PV操作。
    Wait操作对信号量的值做减W法,即:
    Wait(s): s-1 等价于 P(s) 申请资源可能会阻塞自己(s<0)
    Signal操作对信号量的值做加法,即:
    Signal(s): s+1 等价于 V(s) 释放资源并且唤醒阻塞在该信号量上的进程(s≤0)
    信号量不仅能实现互斥,也能够实现同步。
    信号量也可以划分为:互斥信号量(P74)和资源信号量。互斥信号量用于申请或释放资源的使用权,常初始化为1;资源信号量用于申请或归还资源,可以初始化为大于的1的正整数,表示系统中某类资源的可用个数。
    信号量中s.count的意义为:若s.count≥0,表示还可以执行wait(s)而不会阻塞的进程数(可用资源数);若s.count<0,表示s.queue队列中阻塞进程的个数(被阻塞进程数)。
    当用s来实现n个进程的互斥时,假设初始资源数为1,那么s.count的取值范围为1~ -(n-1);
  • 管程:一个管程是一个由过程、变量及数据结构等组成的一个集合,它们组成一个特殊的模块或软件包。进程可以在任何需要的时候调用管程中的过程,但是它们能在管程之外声明的过程中直接访问管程内的数据结构。
  • 消息传递(message passing):这种进程间通信的方法使用两条原语send和receive,它们像信号量而不像管程,是系统调用而不是语言成分。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值