GIL(全局解释器锁)
- 并发:交替处理多个任务的能力
- 并行:同时处理多个任务的能力
- cpython中多线程并不能真正的让多核CPU实行并行
原因
cpython解释器中存在一个GIL(全局解释器锁),他的作用就是保证同一时刻只有一个线程可以执行代码,因此造成了我们使用多线程的时候无法实现并行
每个线程在执行的过程都需要先获取GIL,保证同一时刻只有一个线程可以执行代码。
线程释放GIL锁的情况: 在IO操作等可能会引起阻塞的system call之前,可以暂时释放GIL,但在执行完毕后,必须重新获取GIL Python 3.x使用计时器(执行时间达到阈值后,当前线程释放GIL)或Python 2.x,tickets计数达到100
多线程爬取比单线程性能有提升,因为遇到IO阻塞会自动释放GIL锁
解决方案:
- 更换解释器,比如jpython
- 使用进程(进程池)+协程实现——–(推荐)
- 嵌入用C,C++等实现的线程操作编译库
Guido的声明:http://www.artima.com/forums/flat.jsp?forum=106&thread=214235
结论
CPU密集型
在 处理像科学计算 这类需要持续使用cpu的任务的时候 单线程会比多线程快
IO密集型
在 处理像IO操作等可能引起阻塞的这类任务的时候 多线程会比单线程快