请你说一下进程与线程的概念,以及为什么要有进程线程,其中有什么区别,他们各自又是怎么同步的。
01 基本概念:
- 进程是对运行时程序的封装,是系统进行资源分配和独立运行的的基本单位,实现了操作系统的并发;
- 一个程序加载到内存后就变为进程。进程是程序的一次执行过程。
进程 = 数据 + 程序 + 执行
。- 线程可以理解为进程中执行的一段程序片段。
- 线程是进程的子任务,是CPU调度和分派的基本单位,用于保证程序的实时性,实现进程内部的并发;
- 线程是操作系统可识别的最小执行和调度单位。每个线程都独自占用一个虚拟处理器:独自的寄存器组,指令计数器和处理器状态。每个线程完成不同的任务,但是共享同一地址空间(也就是同样的动态内存,映射文件,目标代码等等),打开的文件队列和其他内核资源。
- 同一进程中的两段代码不能够同时执行,除非引入线程。
02 区别:
- 一个线程只能属于一个进程,而一个进程可以有多个线程,但至少有一个线程。线程依赖于进程而存在。
- 进程在执行过程中拥有独立的内存单元,而多个线程共享进程的内存。(资源分配给进程,同一进程的所有线程共享该进程的所有资源。同一进程中的多个线程共享代码段(代码和常量),数据段(全局变量和静态变量),扩展段(堆存储)。但是每个线程拥有自己的栈段,栈段又叫运行时段,用来存放所有局部变量和临时变量。)
- 线程共享的环境包括:进程代码段、进程的公有数据(利用这些共享的数据,线程很容易的实现相互之间的通讯)、进程打开的文件描述符、信号的处理器、进程的当前目录和进程用户ID与进程组ID。
- 非共享的包括:线程ID,寄存器组的值,线程的堆栈,错误返回码, 线程的信号屏蔽码, 线程的优先级。
- 进程是资源分配的最小单位,线程是CPU调度的最小单位;
- 系统开销: 由于在创建或撤消进程时,系统都要为之分配或回收资源,如内存空间、IO设备等。因此,操作系统所付出的开销将显著地大于在创建或撤消线程时的开销。类似地,在进行进程切换时,涉及到整个当前进程CPU环境的保存以及新被调度运行的进程的CPU环境的设置。 而线程切换只须保存和设置少量寄存器的内容,并不涉及存储器管理方面的操作。可见,进程切换的开销也远大于线程切换的开销。
- 进程切换需要分两步:切换页目录、刷新TLB以使用新的地址空间;切换内核栈和硬件上下文(寄存器);
- 而同一进程的线程间逻辑地址空间是一样的,不需要切换页目录、刷新TLB。
- 通信:由于同一进程中的多个线程具有相同的地址空间,致使它们之间的同步和通信的实现,也变得比较容易。进程间通信IPC,线程间可以直接读写进程数据段(如全局变量) 来进行通信——需要进程同步和互斥手段的辅助,以保证数据的一致性。在有的系统中,线程的切换、同步和通信都无须操作系统内核的干预
- 进程编程调试简单可靠性高,但是创建销毁开销大;线程正相反,开销小,切换速度快,但是编程调试相对复杂。
- 进程适应于多核、多机分布;线程适用于多核。
- 一个进程崩溃,不会对其他进程产生影响;而一个线程崩溃,会让同一进程内的其他线程也死掉。
请问线程需要保存哪些上下文,SP、PC、EAX这些寄存器是干嘛用的
- 线程在切换的过程中需要保存当前线程Id、线程状态、堆栈、寄存器状态等信息。其中寄存器主要包括SP PC EAX等寄存器,其主要功能如下:
- SP: 堆栈指针,指向当前栈的栈顶地址
- PC: 程序计数器,存储下一条将要执行的指令
- EAX: 累加寄存器,用于加法乘法的缺省寄存器
03 进程间通信的方式:
- 进程之间的交互称为
进程间通信
(Inter-Process Communication
,IPC
)。 - 进程间通信主要包括管道、系统IPC(包括消息队列、信号量、信号、共享内存等)、以及套接字socket。
为什么要通信?
- 父进程在创建子进程后,通常需要监督子进程的状态,以便于子进程没有完成给定的任务时,可以再创建一个子进程来继续。这就需要父子进程间通信。
1.管道:
管道主要包括无名管道和命名管道:管道可用于具有亲缘关系的父子进程间的通信,有名管道除了具有管道所具有的功能外,它还允许无亲缘关系进程间的通信。
1.1 普通管道PIPE:
- 它是半双工的(即数据只能在一个方向上流动),具有固定的读端和写端。
- 它只能用于具有亲缘关系的进程之间的通信(也是父子进程或者兄弟进程之间)。
- 它可以看成是一种特殊的文件,对于它的读写也可以使用普通的
read
、write
等函数。但是它不是普通的文件,并不属于其他任何文件系统,并且只存在于内存中。
Int pipe(int fd[2]);
当一个管道建立时,会创建两个文件文件描述符,要关闭管 道只需将这两个文件描述符关闭即可。
1.2 命名管道FIFO:先进先出
FIFO
可以在无关的进程之间交换数据。FIFO
有路径名与之相关联,它以一种特殊设备文件形式存在于文件系统中。
Int mkfifo(const char* pathname,mode_t mode);
2. 系统IPC:
2.1 消息队列
- 消息队列,是消息的链接表,存放在内核中。一个消息队列由一个标识符(即队列ID)来标记。
- 消息队列克服了信号传递信息少,管道只能承载无格式字节流以及缓冲区大小受限等特点。
- 具有写权限的进程可以按照一定得规则向消息队列中添加新信息;
- 对消息队列有读权限得进程则可以从消息队列中读取信息;
特点:
- 消息队列是面向记录的,其中的消息具有特定的格式以及特定的优先级。
- 消息队列独立于发送与接收进程。进程终止时,消息队列及其内容并不会被删除。
- 消息队列可以实现消息的随机查询,消息不一定要以先进先出的次序读取,也可以按消息的类型读取。
2.2 信号量 semaphore
- 信号量(semaphore) 与已经介绍过的 IPC 结构不同,它是一个计数器,可以用来控制多个进程对共享资源的访问。
- 信号量用于实现进程间的互斥与同步,而不是用于存储进程间通信数据。
特点:
- 信号量用于进程间同步,若要在进程间传递数据需要结合共享内存。
- 信号量基于操作系统的 PV 操作,程序对信号量的操作都是原子操作。
- 每次对信号量的 PV 操作不仅限于对信号量值+1 或 -1,而且可以加减任意正整数。
4)支持信号量组。
2.3 信号signal
- 信号是一种比较复杂的通信方式,用于通知接收进程某个事件已经发生。
2.4 共享内存(Shared Memory)
- 它使得多个进程可以访问同一块内存空间,不同进程可以及时看到对方进程中对共享内存中数据的更新。这种方式需要依靠某种同步操作,如互斥锁和信号量等
特点:
- 共享内存是最快的一种IPC,因为进程是直接对内存进行存取。
- 因为多个进程可以同时操作,所以需要进行同步。
信号量+共享内存
通常结合在一起使用,信号量用来同步对共享内存的访问。
3. 套接字SOCKET:
- socket也是一种进程间通信机制,与其他通信机制不同的是,它可用于不同主机之间的进程通信。
04 线程间通信的方式:
- 临界区:通过多线程的串行化来访问公共资源或一段代码,速度快,适合控制数据访问;在任意一个时刻只允许一个线程对共享资源进行访问,如果有多个线程试图访问公共资源,那么在有一个线程进入后,其他试图访问公共资源的线程将被挂起,并一直等到进入临界区的线程离开,临界区在被释放后,其他线程才可以抢占。
- 互斥量Synchronized/Lock:采用互斥对象机制,只有拥有互斥对象的线程才有访问公共资源的权限。因为互斥对象只有一个,所以可以保证公共资源不会被多个线程同时访问。
- 信号量Semphare:为控制具有有限数量的用户资源而设计的,它允许多个线程在同一时刻去访问同一个资源,但一般需要限制同一时刻访问此资源的最大线程数目。在用
CreateSemaphore()
创建信号量时即要同时指出允许的最 大资源计数和当前可用资源计数。一般是将当前可用资源计数设置为最 大资源计数, 每增加一个线程对共享资源的访问,当前可用资源计数就会减1
,只要当前可用资源 计数是大于0
的,就可以发出信号量信号。但是当前可用计数减小 到0
时则说明当前 占用资源的线程数已经达到了所允许的最大数目,不能在允许其他线程的进入,此时的 信号量信号将无法发出。线程在处理完共享资源后,应在离开的同时通过ReleaseSemaphore ()
函数将当前可用资源计数加1
。在任何时候当前可用资源计数 决不可能大于最大资源计数。 - 事件(信号),Wait/Notify:通过通知操作的方式来保持多线程同步,还可以方便的实现多线程优先级的比较操作。
多进程与多线程间的对比、优劣与选择
选择
- 需要频繁创建销毁的优先用线程
- 需要进行大量计算的优先使用进程
- 强相关的处理用线程,弱相关的处理用进程
- 可能要扩展到多机分布的用进程,多核分布的用线程
请你说一下多进程和多线程的使用场景
- 多线程模型主要优势为线程间切换代价较小,因此适用于I/O密集型的工作场景,因此I/O密集型的工作场景经常会由于I/O阻塞导致频繁的切换线程。同时,多线程模型也适用于单机多核分布式场景。
- 多进程模型的优势是CPU。则多进程模型,适用于CPU密集型。同时,多进程模型也适用于多机分布式场景中,易于多机扩展。
有了进程,为什么还要有线程?
线程产生的原因:
- 进程可以使多个程序能并发执行,以提高资源的利用率和系统的吞吐量;但是其具有一些缺点:
- 进程在同一时间只能干一件事。
- 进程在执行的过程中如果阻塞,整个进程就会挂起,即使进程中有些工作不依赖于等待的资源,仍然不会执行。
因此,操作系统引入了比进程粒度更小的线程,作为并发执行的基本单位,从而减少程序在并发执行时所付出的时空开销,提高并发性。和进程相比,线程的优势如下:
- 从资源上来讲,线程是一种非常"节俭"的多任务操作方式。在linux系统下,启动一个新的进程必须分配给它独立的地址空间,建立众多的数据表来维护它的代码段、堆栈段和数据段,这是一种"昂贵"的多任务工作方式。
- 从切换效率上来讲,运行于一个进程中的多个线程,它们之间使用相同的地址空间,而且线程间彼此切换所需时间也远远小于进程间切换所需要的时间。据统计,一个进程的开销大约是一个线程开销的30倍左右。
- 从通信机制上来讲,线程间方便的通信机制。对不同进程来说,它们具有独立的数据空间,要进行数据的传递只能通过进程间通信的方式进行,这种方式不仅费时,而且很不方便。线程则不然,由于同一进城下的线程之间贡献数据空间,所以一个线程的数据可以直接为其他线程所用,这不仅快捷,而且方便。
除以上优点外,多线程程序作为一种多任务、并发的工作方式,还有如下优点:
1、使多CPU系统更加有效。操作系统会保证当线程数不大于CPU数目时,不同的线程运行于不同的CPU上。
2、改善程序结构。一个既长又复杂的进程可以考虑分为多个线程,成为几个独立或半独立的运行部分,这样的程序才会利于理解和修改。