Linux 多进程 .之多进程,多线程的概念和区别(一)

Linux 多进程,多线程的概念和区别(一)

一、进程和线程的概念和区别?

在这里插入图片描述

在这里插入图片描述

1、定义:

进程,进程依赖于程序运行而存在,进程是动态的,程序是静态的,它是操作系统进行资源分配的一个独立单位,它是具有一定独立功能的程序关于某个数据集合上的一次执行过程。每个进程拥有独立的地址空间,地址空间包括代码区、数据区和堆栈区,进程之间的地址空间是隔离的,互不影响。

线程,它是进程内部的一个实体,是CPU 调度的基本单位,它是比进程更小的能独立运行的基本单位。线程自己基本上不拥有系统资源,它只拥有一点在运行期间必不可少的资源(如程序计数器PC,一组寄存器和栈等)。但是,它可以与同属于一个进程的其他线程 共享进程所拥有的资源。

一、进程、线程
(1)进程概念
进程是一个具有一定独立功能的程序在一个数据集上的一次动态执行的过程,是操作系统进行资源分配和调度的一个独立单位,是应用程序运行的载体。进程是一种抽象的概念,从来没有统一的标准定义。进程一般由程序,数据集合和进程控制块三部分组成。程序用于描述进程要完成的功能,是控制进程执行的指令集;数据集合是程序在执行时所需要的数据和工作区;程序控制块包含进程的描述信息和控制信息是进程存在的唯一标志。

进程具有的特征:

动态性:进程是程序的一次执行过程,是临时的,有生命期的,是动态产生,动态消亡的;

并发性:任何进程都可以同其他进行一起并发执行;

独立性:进程是系统进行资源分配和调度的一个独立单位;

结构性:进程由程序,数据和进程控制块三部分组成

(2)线程概念
在早期的操作系统中并没有线程的概念,进程是拥有资源和独立运行的最小单位,也是程序执行的最小单位。任务调度采用的是时间片轮转的抢占式调度方式,而进程是任务调度的最小单位,每个进程有各自独立的一块内存,使得各个进程之间内存地址相互隔离。后来,随着计算机的发展,对CPU的要求越来越高,进程之间的切换开销较大,已经无法满足越来越复杂的程序的要求了。于是就发明了线程。

线程是程序执行中一个单一的顺序控制流程(即进程中的一条执行路径),是程序执行流的最小单元,是处理器调度和分派的基本单位。一个进程可以有一个或多个线程,各个线程之间共享程序的内存空间(也就是所在进程的内存空间)。一个标准的线程由线程ID,当前指令指针PC,寄存器和堆栈组成。而进程由内存空间(代码,数据,进程空间,打开的文件)和一个或多个线程组成。

2、OS中用于管理控制的数据结构
在计算机系统中,对于每个资源和每个进程都设置了一个数据结构,用于表征其实体,我们称之为资源信息表或进程信息表,其中包含了资源或进程的标识、描述、状态等信息以及一批指针。通过这些指针,可以将同类资源或进程的信息表,或者同一进程所占用的资源信息表分类,链接成不同的队列,便于操作系统进行查找。
OS管理的这些数据结构一般分为以下四类:内存表、设备表、文件表和用于进程管理的进程表,通常进程表又被称为进程控制块PCB。
在这里插入图片描述
进程控制块PCB的作用
(1) 作为独立运行基本单位的标志。
(2) 能实现间断性运行方式。
(3) 提供进程管理所需要的信息。
(4) 提供进程调度所需要的信息。
(5) 实现与其它进程的同步与通信。

进程控制块中的信息
在进程控制块中主要包括四部分的信息:
1)进程标识符
进程标识符用于唯一地标识一个进程。一个进程通常有两种标识符:
a) 外部标识符(相当于是可执行程序的文件名,由创建者提供,通常是由字母、数字组成,往往是用户访问该进程使用,自己编译后起的名字)。
b) 内部标识符(方便系统使用而设置,每一个进程赋予一个唯一的整数,作为内部标识符,PID)。

2) 处理机状态
处理机状态信息也称为处理机的上下文,主要是由处理机的各种寄存器中的内容组成的。

3)进程调度信息
在OS进行调度时,必须了解进程的状态及有关进程调度的信息,这些信息包括:
① 进程状态,指明进程的当前状态,它是作为进程调度和对换时的依据;
② 进程优先级,是用于描述进程使用处理机的优先级别的一个整数,优先级高的进程应优先获得处理机;
③ 进程调度所需的其它信息,它们与所采用的进程调度算法有关,比如,进程已等待CPU的时间总和、进程已执行的时间总和等;
④ 事件,是指进程由执行状态转变为阻塞状态所等待发生的事件,即阻塞原因。

4)进程控制信息
是指用于进程控制所必须的信息,它包括:
① 程序和数据的地址,进程实体中的程序和数据的内存或外存地(首)址,以便再调度到该进程执行时,能从PCB中找到其程序和数据;
② 进程同步和通信机制,这是实现进程同步和进程通信时必需的机制,如消息队列指针、信号量等,它们可能全部或部分地放在PCB中;
③ 资源清单,在该清单中列出了进程在运行期间所需的全部资源(除CPU以外),另外还有一张已分配到该进程的资源的清单;
④ 链接指针,它给出了本进程(PCB)所在队列中的下一个进程的PCB的首地址。

3、区别:

在这里插入图片描述

进程和线程的主要差别在于,它们是不同的操作系统资源管理方式。
进程具有独立的地址空间,一个进程崩溃后,在保护模式下不会对其它进程产生影响。
而线程,它只是一个进程内部的不同代码执行流。线程有自己的栈空间(存储局部变量),但是,线程之间没有单独的地址空间,一个线程死掉就等于整个进程死掉。

所以,多进程的程序要比多线程的程序更健壮。但是在不同的进程之间切换时,耗费资源较大,效率要差一些。
对于一些要求同时执行并且又要共享某些变量的并发操作,只能用线程,不能用进程。

1)简而言之,一个程序至少有一个进程,一个进程至少有一个线程。

2)线程的划分尺度小于进程,使得多线程程序的并发性高。

3)另外,进程在执行过程中拥有独立的内存单元,而多个线程共享内存,从而极大地提高了程序的运行效率。

4)线程在执行过程中与进程还是有区别的。每个独立的线程有一个程序运行的入口、顺序执行序列和程序的出口。但是线程不能够独立执行,必须依存在应用程序中,由应用程序提供多个线程执行控制。

5)从逻辑角度来看,多线程的意义在于一个应用程序中,有多个执行部分可以同时执行。但操作系统并没有将多个线程看做多个独立的应用,来实现进程的调度和管理以及资源分配。这就是进程和线程的重要区别。

一个线程可以创建和撤销另一个线程。同一个进程内部的多个线程之间可以并发执行。
相对进程而言,线程是一个更加接近于代码执行体的概念,它可以与同进程中的其他线程共享数据,但拥有自己独立的栈空间,拥有独立的执行序列。

进程的创建、销毁与切换存在着较大的时空开销,因此人们急需一种轻型的进程技术来减少开销。在80年代,线程的概念开始出现,线程被设计成进程的一个执行路径,同一个进程中的线程共享进程的资源,因此系统对线程的调度所需的成本远远小于进程。

(3)区别
(1).进程是系统资源分配的基本单位,线程是cpu调度执行的基本单位。一个进程中包含多条线程。

(2).多进程中,进程之间的资源都是独立的,同一进程中的多份线程资源共享。

(3).线程更加轻便小巧,从而使线程调度、切换都比线程效率高。进程切换效率低,代价大;线程切换效率高,代价小

(4).进程
**共享:**代码段、公共数据、进程目录、进程ID
**私有:**地址空间、堆、栈、全局变量、寄存器
(5)线程
**共享:**堆、地址空间、全局变量、静态变量
**私有:**线程栈、寄存器、程序寄存器

(6).多进程之间资源不共享的,只有父子进程共享在fork()之前打开的文件描述符;多线程之间资源共享,只有栈区不共享

二.多进程、多线程概念
(1)多进程
进程是程序在计算机上的一次执行活动。当你运行一个程序,你就启动了一个进程。凡是用于完成操作系统的各种功能的进程就是系统进程,而所有由你启动的进程都是用户进程。同理,多进程就是指计算机同时执行多个进程,一般是同时运行多个软件。

(2)多线程
线程是进程中的实际运行单位,是操作系统进行运算调度的最小单位。可理解为线程是进程中的一个最小运行单元。那么多线程就很容易理解:多线程就是指一个进程中同时有多个线程正在执行。

为什么要使用多线程?

在一个程序中,有很多的操作是非常耗时的,如数据库读写操作,IO操作等,如果使用单线程,那么程序就必须等待这些操作执行完成之后才能执行其他操作。使用多线程,可以在将耗时任务放在后台继续执行的同时,同时执行其他操作。
可以提高程序的效率。
在一些等待的任务上,如用户输入,文件读取等,多线程就非常有用了。
多线程的缺点:

使用太多线程,是很耗系统资源,因为线程需要开辟内存。更多线程需要更多内存。
影响系统性能,因为操作系统需要在线程之间来回切换。
需要考虑线程操作对程序的影响,如线程挂起,中止等操作对程序的影响。
线程使用不当会发生很多问题。
总结:多线程是异步的,但这不代表多线程真的是几个线程是在同时进行,实际上是系统不断地在各个线程之间来回的切换(因为系统切换的速度非常的快,所以给我们在同时运行的错觉)。

理论过于抽象难解,下面还是用大家喜闻乐见的现实中的例子去类比,没错还是工厂的例子:

在这里插入图片描述

在计算机,有很多个进程,进程1,2,3 。这个大工厂中,进程被比作一个车间,为生产活动提供了设计图、场地、生产线(线程),生产线共享的生产原材料,等生产要素。
一个工厂,有多个车间,每一个车间,负责不同的任务,车间1,负责初步加工,车间2,负责精加工,车间3,负责组装出货。形成流水线,相互等待,假设这个工厂,只有100个人,资源有限,而要负责三个车间的生产任务,每次只能去一个生产车间,从1切换到2,2切换到3,然后又切回车间1。这个过程称为进程上下文切换。

而线程是这个车间中的一条条生产线。生产线本身会有一个操作台,具体的零件在这里被生产。然而仍然是只有这么些人,资源有限,一次只能去产线1,然后切换到产线2,再切换到产线3,,过程称为线程上下文切换。

工人在多个车间,多条生产线间穿梭操作,看起来是把所有事都干了,来回切换。回到计算机中,假设是单核cpu,只有一个cpu,资源有限,那就需要来回切换,就像CPU在不同进程,线程间切换一样,这个动作被称为并发。当然这是假并发,微观上,他们是串行。宏观上是并发。

4、并行与并发

一个基本的事实前提:单核CPU在一个瞬间只能处理一个任务,就像人只有一张嘴,不能吃饭的同时,又说话,又唱歌,有人抬杠,不是同时进行的吗,说话时声带振动,吃饭吞咽时,是不可以声带振动的,不然会被噎死。但为什么在我们人类视角,哪怕是单核心计算机也能同时做很多事情,比如同时听音乐和浏览网页,作为整个系统唯一可以完成计算任务的 CPU 是如何保证两个进程“同时进行”的呢?时间片轮转调度!

每个进程会被操作系统分配一个时间片,即每次被 CPU 选中来执行当前进程所用的时间。时间一到,无论进程是否运行结束,操作系统都会强制将 CPU 这个资源转到另一个进程去执行。为什么要这样做呢?因为只有一个单核 CPU,假如没有这种轮转调度机制,那它该去处理写文档的进程还是该去处理听音乐的进程?无论执行哪个进程,另一个进程肯定是不被执行,程序自然就是无运行的状态。如果 CPU 一会儿处理 word 进程一会儿处理听音乐的进程,起初看起来好像会觉得两个进程都很卡,但是 CPU 的执行速度已经快到让人们感觉不到这种切换的顿挫感,就真的好像两个进程在“并行运行”。

在这里插入图片描述

随着多核心CPU的出现,真正的并行得以实现,那就可以多个进程,同时进行调度,线程同时被调度,大大提高了运行效率。这就是多进程,多线程的并行
在这里插入图片描述
所谓的进程上下文,就是一个进程在执行的时候,CPU的所有寄存器中的值、进程的状态以及堆栈上的内容,当内核需要切换到另一个进程时,它 需要保存当前进程的所有状态,即保存当前进程的进程上下文,以便再次执行该进程时,能够恢复切换时的状态,继续执行。

5 线程共享了进程哪些资源

“进程是操作系统分配资源的单位,线程是调度的基本单位,线程之间共享进程资源”。
可是你真的理解了上面的那句话吗?到底线程之间共享了哪些进程资源,共享资源意味着什么?共享资源这种机制是如何实现的?

线程私有资源

函数运行时的信息保存在栈帧中,栈帧中保存了函数的返回值、调用其它函数的参数、该函数使用的局部变量以及该函数使用的寄存器信息,如图所示,假设函数A调用函数B:
在这里插入图片描述

此外,CPU 执行指令的信息保存在一个叫做程序计数器的寄存器中,通过这个寄存器我们就知道接下来要执行哪一条指令。由于操作系统随时可以暂停线程的运行,因此我们保存以及恢复程序计数器中的值就能知道线程是从哪里暂停的以及该从哪里继续运行了。
由于线程运行的本质就是函数运行,函数运行时信息是保存在栈帧中的,因此每个线程都有自己独立的、私有的栈区。

在这里插入图片描述
同时函数运行时需要额外的寄存器来保存一些信息,像部分局部变量之类。这些寄存器也是线程私有的,一个线程不可能访问到另一个线程的这类寄存器信息。

从上面的讨论中我们知道,到目前为止,所属线程的栈区、程序计数器、栈指针以及函数运行使用的寄存器是线程私有的
以上这些信息有一个统一的名字,就是线程上下文,thread context。
我们也说过操作系统调度线程需要随时中断线程的运行并且需要线程被暂停后可以继续运行,操作系统之所以能实现这一点,依靠的就是线程上下文信息。
现在你应该知道哪些是线程私有的了吧。除此之外,剩下的都是线程间共享资源。那么剩下的还有什么呢?还有图中的这些。

在这里插入图片描述

这其实就是进程地址空间的样子,也就是说线程共享进程地址空间中除线程上下文信息中的所有内容,意思就是说线程可以直接读取这些内容。

代码区

进程地址空间中的代码区,这里保存的是什么呢?从名字中有的同学可能已经猜到了,没错,这里保存的就是我们写的代码,更准确的是编译后的可执行机器指令。
那么这些机器指令又是从哪里来的呢?答案是从可执行文件中加载到内存的,可执行程序中的代码区就是用来初始化进程地址空间中的代码区的。
在这里插入图片描述

线程之间共享代码区,这就意味着程序中的任何一个函数都可以放到线程中去执行,不存在某个函数只能被特定线程执行的情况。

数据区

进程地址空间中的数据区,这里存放的就是所谓的全局变量。
在这里插入图片描述

什么是全局变量?所谓全局变量就是那些你定义在函数之外的变量,在 C 语言中就像这样:

堆区

堆区是程序员比较熟悉的,我们在 C/C++中用 malloc 或者 new 出来的数据就存放在这个区域,很显然,只要知道变量的地址,也就是指针,任何一个线程都可以访问指针指向的数据,因此堆区也是线程共享的属于进程的资源。
在这里插入图片描述

7、进程的三种基本状态

由于多个进程在并发执行时共享系统资源,致使它们在运行过程中呈现间断性的运行规律,所以进程在其生命周期内可能具有多种状态。一般而言,每一个进程至少应处于以下三种基本状态之一:(1) 就绪(Ready)状态。
(2) 执行(Running)状态。
(3) 阻塞(Block)状态。

进程的三种状态之间的转换
进程在运行过程中会经常发生状态的转换。例如,处于就绪状态的进程,在调度程序为之分配了处理机之后便可执行,相应地,其状态就由就绪态转变为执行态;正在执行的进程(当前进程)如果因分配给它的时间片已完而被剥夺处理机暂停执行时,其状态便由执行转为就绪;如果因发生某事件,致使当前进程的执行受阻(例如进程访问某临界资源,而该资源正被其它进程访问时),使之无法继续执行,则该进程状态将由执行转变为阻塞。图2-5示出了进程的三种基本状态,以及各状态之间的转换关系。

进程的创建状态
进程是由创建而产生。创建一个进程是个很复杂的过程,一般要通过多个步骤才能完成:如首先由进程申请一个空白PCB,并向PCB中填写用于控制和管理进程的信息;然后为该进程分配运行时所必须的资源;最后,把该进程转入就绪状态并插入就绪队列之中。但如果进程所需的资源尚不能得到满足,比如系统尚无足够的内存使进程无法装入其中,此时创建工作尚未完成,进程不能被调度运行,于是把此时进程所处的状态称为创建状态。

进程的终止状态
进程的终止也要通过两个步骤:首先,是等待操作系统进行善后处理,最后将其PCB清零,并将PCB空间返还系统。当一个进程到达了自然结束点,或是出现了无法克服的错误,或是被操作系统所终结,或是被其他有终止权的进程所终结,它将进入终止状态。进入终止态的进程以后不能再执行,但在操作系统中依然保留一个记录,其中保存状态码和一些计时统计数据,供其他进程收集。一旦其他进程完成了对其信息的提取之后,操作系统将删除该进程,即将其PCB清零,并将该空白PCB返还系统。
在这里插入图片描述

在这里插入图片描述
七态模型描述
进程的挂起

到目前为止,我们或多或少总是假设所有的进程都在内存中。事实上,可能出现这样一些情况,例如由于进程的不断创建,系统的资源已经不能满足进程运行的要求,这个时候就必须把某些进程挂起(suspend),对换到磁盘镜像区中,暂时不参与进程调度,起到平滑系统操作负荷的目的。
引起进程挂起的原因是多样的,主要有:

  1. 系统中的进程均处于等待状态,处理器空闲,此时需要把一些阻塞进程对换出去,以腾出足够的内存装入就绪进程运行。
  2. 进程竞争资源,导致系统资源不足,负荷过重,此时需要挂起部分进程以调整系统负荷 ,保证系统的实时性或让系统正常运行。
  3. 把一些定期执行的进程(如审计程序、监控程序、记账程序)对换出去,以减轻系统负荷。
  4. 用户要求挂起自己的进程,以便根据中间执行情况和中间结果进行某些调试、检查和改正。
  5. 父进程要求挂起自己的后代进程,以进行某些检查和改正。
  6. 操作系统需要挂起某些进程,检查运行中资源使用情况,以改善系统性能;或当系统出现故障或某些功能受到破坏时,需要挂起某些进程以排除故障。
    下面是具有七态模型的进程状态及其转换:
    在这里插入图片描述

总结:

提问 工作线程数是不是设置的越大越好?

回答:不是的。

1)服务器的CPU核数 有限,同时并发的线程数也是有限的,1核CPU设置10000个工作线程没有意义。

2)线程之间的切换是有开销的,如果线程切换过于频繁,反而会使性能降低。

提问:调用sleep() 函数的时候,线程是否一直占用CPU?

回答:不占用,调用sleep() 等待时会把CPU 让出来,给其他需要CPU 资源的线程使用。

不止调用sleep() 函数,在进行一些阻塞调用,例如网络编程中的阻塞 accept()【等待客户端连接】和 阻塞
recv()【等待下游回包】也不占用CPU资源。

提问:如果CPU是单核,设置多线程有意义么,能提高并发性能么?

回答:即使是单核,使用多线程也是有意义的。

1)多线程编码可以让我们的服务/代码更加清晰:有些IO线程收发包,有些Worker线程进行任务处理,有些Timeout线程进行超时检测。

2)如果有一个任务一直占用CPU资源在进行计算,那么此时增加线程并不能增加并发。

例如这样的一个代码:

while(1) { i++; }

该代码一直不停的占用CPU资源进行计算,会使CPU占用率达到100%。

3)通常来说,Worker线程一般不会一直占用CPU进行计算,此时即使CPU是单核,增加Worker线程也能够提高并发,因为这个线程在休息的时候,其他的线程可以继续工作。

五、进程之间通信的方式有哪些?线程之间通信的方式有哪些?

7 种进程间的通信方式:

(1) 管道(pipe):管道是一种半双工的通信方式,数据只能单向流动,而且只能在具有血缘关系的进程间使用。进程的血缘关系通常指父子进程关系。

(2)有名管道(named pipe):有名管道也是半双工的通信方式,但是它允许无亲缘关系进程间通信。

(3)信号量(semophore):信号量是一个计数器,可以用来控制多个进程对共享资源的访问。它通常作为一种锁机制,防止某进程正在访问共享资源时,其他进程也访问该资源。因此,主要作为进程间以及同一进程内不同线程之间的同步手段。

(4)消息队列(message queue):消息队列是由消息组成的链表,存放在内核中 并由消息队列标识符标识。消息队列克服了信号传递信息少,管道只能承载无格式字节流以及缓冲区大小受限等缺点。

(5)信号处理机制(signal):信号是一种比较复杂的通信方式,用于通知接收进程某一事件已经发生。

(6)共享内存(shared memory):共享内存就是映射一段能被其他进程所访问的内存,这段共享内存由一个进程创建,但多个进程都可以访问,共享内存是最快的IPC方式,它是针对其他进程间的通信方式运行效率低而专门设计的。它往往与其他通信机制,如信号量配合使用,来实现进程间的同步和通信。

(7)套接字(socket):套接字也是一种进程间的通信机制,与其他通信机制不同的是它可以用于不同及其间的进程通信。

3种 线程间的通信机制:
(1)锁机制:

1.1 互斥锁 mutex:提供了以排它方式阻止数据结构被并发修改的方法。

1.2 读写锁 read/write:允许多个线程同时读共享数据,而对写操作互斥。

1.3 条件变量 condtion variable:可以以原子的方式阻塞进程,直到某个特定条件为真为止。对条件测试是在互斥锁mutex 的保护下进行的。条件变量始终与互斥锁一起使用。

(2)信号量机制:比如常用的二进制信号量0和1。

(3)信号处理器机制:类似于进程间的信号处理。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值