概述
进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位.
线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源.
一个线程可以创建和撤销另一个线程;同一个进程中的多个线程之间可以并发执行.
相对进程而言,线程是一个更加接近于执行体的概念,它可以与同进程中的其他线程共享数据,但拥有自己的栈空间,拥有独立的执行序列。
在串行程序基础上引入线程和进程是为了提高程序的并发度,从而提高程序运行效率和响应时间。
区别
进程和线程的主要差别在于它们是不同的操作系统资源管理方式。进程有独立的地址空间,一个进程崩溃后,在保护模式下不会对其它进程产生影响,而线程只是一个进程中的不同执行路径。线程有自己的堆栈和局部变量,但线程之间没有单独的地址空间,一个线程死掉就等于整个进程死掉,所以多进程的程序要比多线程的程序健壮,但在进程切换时,耗费资源较大,效率要差一些。但对于一些要求同时进行并且又要共享某些变量的并发操作,只能用线程,不能用进程。
优缺点
- 多线程的优缺点
- 多线程共享数据简单,但是同步复杂
- 占用内存小,切换简单,CPU利用率高
- 创建,销毁简单,速度更快
- 编程复杂,调试复杂,一个线程挂掉将导致整个进程挂掉
- 适合多核分布式
- 多进程的优缺点
- 数据共享复杂,需要IPC,数据是独立的,同步简单
- 占用内存多,切换复杂
- 创建销毁切换复杂,速度慢
- 编程简单,调试简单
- 进程之间不会相互影响
- 适合多核多机分布式
线程共享的环境包括:
- 进程代码段
- 进程的公有数据(利用这些共享的数据,线程很容易的实现相互之间的通讯)
- 进程打开的文件描述符、信号的处理器、进程的当前目录和进程用户ID与进程组ID。
线程独有的环境
- 线程ID
每个线程都有自己的线程ID,这个ID在本进程中是唯一的。进程用此来标识线程。 - 寄存器组的值
由于线程间是并发运行的,每个线程有自己不同的运行线索,当从一个线程切换到另一个线程上 时,必须将原有的线程的寄存器集合的状态保存,以便将来该线程在被重新切换到时能得以恢复。 - 线程的堆栈
堆栈是保证线程独立运行所必须的。线程函数可以调用函数,而被调用函数中又是可以层层嵌套的,所以线程必须拥有自己的函数堆栈, 使得函数调用可以正常执行,不受其他线程的影响。 - 错误返回码
由于同一个进程中有很多个线程在同时运行,可能某个线程进行系统调用后设置了errno值,而在该 线程还没有处理这个错误,另外一个线程就在此时被调度器投入运行,这样错误值就有可能被修改。所以,不同的线程应该拥有自己的错误返回码变量。 - 线程的信号屏蔽码
由于每个线程所感兴趣的信号不同,所以线程的信号屏蔽码应该由线程自己管理。但所有的线程都 共享同样的信号处理器。 - 线程的优先级
由于线程需要像进程那样能够被调度,那么就必须要有可供调度使用的参数,这个参数就是线程的 优先级。
为什么进程切换的开销大于线程
进程切换比线程切换开销大是因为进程切换时要切页表,而且往往伴随着页调度,因为进程的数据段代码段要换出去,以便把将要执行的进程的内容换进来。本来进程的内容就是线程的超集。而且线程只需要保存线程的上下文(相关寄存器状态和栈的信息)就好了,并不涉及存储器管理方面的操作,动作很小。
为什么一个线程挂掉会导致整个进程挂掉
线程没有自己单独的内存地址空间。
在一个线程中把另外一个线程的栈空间写坏是再正常不过的事情了。这与进程有没有自己的栈空间无关,因为无论他们有没有自己的栈空间,都可以通过内存地址访问到其他线程的栈空间,所以指针数据的错误可以导致任何同地址空间内其他线程的崩溃,当然也可以导致进程崩溃。
一般而言,没有绝对必要的共享内存空间的需求就不要使用线程,用进程会安全很多。