一、什么是IO密集型操作:
IO密集型是指系统cpu性能相对于硬盘、内存要好太多,此时系统运作时,大部分时间都是cpu在等IO的读写操作,系统cpu利用率不高。I/O bound的程序一般在达到性能极限时,CPU占用率仍然较低。这可能是因为任务本身需要大量I/O操作,而pipeline做得不是很好,没有充分利用处理器能力。
二、什么是CPU密集型操作:
cpu密集型也就计算密集型,系统硬盘、内存性能相对cpu要好好,系统运作cpu很大时间都是100%loading,而io操作(硬盘、内存、网络等读写操作)能在很短时间内完成,而cpu要做很多运算处理,cpu的loading很高。在多重程序系统中,大部份时间用来做计算、逻辑判断等CPU动作的程序称之CPU bound。例如一个计算圆周率至小数点一千位以下的程序,在执行的过程当中绝大部份时间用在三角函数和开根号的计算,便是属于CPU bound的程序。CPU bound的程序一般而言CPU占用率相当高。这可能是因为任务本身不太需要访问I/O设备,也可能是因为程序是多线程实现因此屏蔽掉了等待I/O的时间。
三、运用:
IO密集型,主要涉及到网络、硬盘IO的任务,这类任务消耗cpu操作很少,任务大部分时间都在等待IO操作的完成,对于IO密集型任务,任务越多,CPU效率越高,但也有一个限度。常见的大部分任务都是IO密集型任务,比如Web应用。对于IO密集型操作,对于语言的运行效率不高,所以一般追求开发效率,使用python等脚本语言,
cpu密集型操作,消耗CPU资源,比如计算圆周率、对视频进行高清解码等等,全靠CPU的运算能力。这种计算密集型任务虽然也可以用多任务完成,但是任务越多,花在任务切换的时间就越多,CPU执行任务的效率就越低,所以,要最高效地利用CPU,计算密集型任务同时进行的数量应当等于CPU的核心数。对于CPU密集型操作,一般使用C等效率高的语言。
四、python如何处理这些操作?
1、python的常见解释器是Cpython,Cpython本身不是线程安全的,因此有全局解释锁(GIL),一次只允许所用一个线程执行字节码。因此一个python进程不能使用多个cpu核心。这个锁也有一个特点是所有阻塞型I/O函数都会释放GIL允许其他线程运行,所以pyhon线程还是能在IO密集型运用中发挥作用的,使用concurrent.futures模块中的ThreadingPoolExecutor创建线程池。
from concurrent.futures import ThreadPoolExecutor
with ThreadPoolExecutor(works) as executor:
res = executor.map(func,list)
其实在处理IO密集型时可以使用协程处理,因为python多线程并不比单线程效率高,甚至会比单线程低,使用asyncio包处理。
2、python如何绕开GIL,实现真正的并行计算呢?使用ProcessPoolExecutor类把工作分配给多个python进程处理,这样就可以要开GIL利用可用的cpu核心了。