1.1. 进程与线程
1.1.1. 进程
程序有指令和数据组成,但这些指令要运行,数据要读写,就必须将指令加载至CPU,数据加载至内存。在指令运行过程中还需要用到磁盘、网络等设备。进程就是用来加载指令、管理内存、管理IO的。
当一个程序被运行,从磁盘加载这个程序的代码至内存,这是就要开启了一个进程;
进程就可以视为程序的一个实例。大部分程序可以同时运行多个实例进程(例如:记事本、画图、浏览器等),也有的程序只能启动一个实例进程(例如:网易云音乐、360安全卫士等)。
1.1.2. 线程
一个进程之内可以分为一到多个线程。
一个线程就是一个指令流,将指令流中的一条条指令以一定的顺序交给CPU执行。
Java中,线程作为最小调度单位,进程作为资源分配的最小单位。在Windows中进程是不活动的,只是作为线程的容易。
1.1.3. 二者对比
进程基本上相互独立的,而线程存在于进程内,是进程的一个子集;
进程拥有共享的资源,如内存空间等,供其内部的线程共享;
进程间通信较为复杂:
同一台计算机的进程通讯成为IPC(Inter-process communication);
不同计算机之间的进程通信,需要通过网络,并遵守共同的协议,例如HTTP;
线程通信相对简单,因为它们共享进程内的内存,一个例子是多个线程可以访问同一个共享变量;
线程更轻量,线程上下文切换成本一般要比进程上下文切换低。
1.2. 并发与并行
1.2.1. 并发
单核CPU下,线程实际上还是串行执行的。操作系统中有一个组件叫做任务调度器,将CPU的时间片分给不用的线程使用,只是由于CPU在线时间(时间片很短)的切换非常快,人类感觉是同时运行的。总结为一句话就是:微观串行,宏观并行。
一般会将这种线程轮流使用CPU的做法称为并发,concurrent。
1.2.2. 并行
多核CPU下,每个核(core)都可以调度运行线程,这时候线程可以是并行的。
引用 Rob Pike 的一段描述:
并发(concurrent)是同一时间应对(dealing with)多件事情的能力
并行(parallel)是同一时间动手做(doing)多件事情的能力
Rob Pike 资料:
例子:
家庭主妇做饭、打扫卫生、给孩子喂奶,她一个人轮流交替做很多事情,这时就是并发
家庭主妇雇了个保姆,她们一起做这些事,这时即有并发,也有并行(这时会产生竞争,例如锅只有一口,一个人用锅时,另一个人就要等待)
雇了3个保姆,一个专做饭、一个专打扫卫生、一个专喂奶,互补干扰,这时是并行。
1.3. 应用
1.3.1. 应用之异步调用(案例1)
从方法调用的角度来讲,如果:
需要等待结果返回,才能继续运行就是同步
不需要等待结果返回,就能继续运行就是异步
注意:同步在多线程中还有另外一层意思,是让多个线程步调一致。
设计
多线程可以让方法执行变为异步的(即不要干巴巴等着)比如说读取磁盘文件时,假设读取操作话费了5秒钟,如果没有线程调度机制,这5秒调用者什么都做不了,其代码都这暂停
结论
比如在项目中,视频文件需要转换格式等操作比较费时,这时开一个新线程处理视频转换,避免阻塞主线程;
tomcat的异步servlet也是类似的目的,让用户线程处理耗时较长的操作,避免阻塞tomcat的工作线程;
ui程序中,开线程进行其他操作,避免阻塞ui线程。
2.3.2. 应用之提高效率(案例1)
充分利用多核CPU的优势,提高运行效率。想象下面的场景,执行3个计算,最后将计算结果汇总。
计算1花费10ms
计算2花费11ms
计算3花费9ms
汇总需要 12 ms
如果是串行执行,那么总花费的时间是10+11+9 = 31ms
但如果是四核CPU,各个核心分别使用线程1执行计算1,线程2执行计算2,线程3执行计算3,那么3个线程是并行的,花费时间只取决于最长的那个线程运行的时间,即11ms 最后加上汇总时间只会花费12ms。
注意:
需要在多核CPU才能提高效率,单核时仍然是轮流执行
设计
>>>>> 代码见【应用之效率—案例1】<<<<<
结论
单核CPU下,多线程不能实际提高程序运行效率,只是为了能够在不同的任务之间切换,不同线程轮流使用CPU,不至于一个线程总占用CPU,别的线程没法干活;
多核CPU可以并行跑多个线程,但能否提高程序运行效率还是要分情况的
有些任务,经过精心设计,将任务拆分,并行执行,当然可以提高程序的运行效率,但不是所有计算任务都能拆分(参考后文的【阿姆达尔定律】)
也不是所有任务都需要拆分,任务的目的如果不同,谈拆分和效率没啥意义
IO操作不占用CPU,只是我们一般拷贝文件使用的是【阻塞IO】,这时相当于线程虽然不用CPU,但需要一直等待IO结束,没有充分利用到线程。所以才会后面的【非阻塞IO】和【异步IO】优化。