爬虫学习使用指南
Auth: 王海飞
Data:2018-06-13
Email:779598160@qq.com
github:https://github.com/coco369/knowledge
前言
由于我们从Python官方网站下载并安装好Python后,我们就直接获得了一个官方版本的解释器:CPython。这个解释器是用C语言开发的,所以叫CPython。在命令行下运行python就是启动CPython解释器。
但是随之就引来了一个限制多线程效率的问题:GIL(全局解释性锁 GLOBAL INTERPRETER LOCK)
其实: Python语言和GIL没有半毛钱关系。仅仅是由于历史原因在Cpython虚拟机(解释器),难以移除GIL。
GIL:全局解释器锁。每个线程在执行的过程都需要先获取GIL,保证同一时刻只有一个线程可以执行代码。
线程释放GIL锁的情况: 在IO操作等可能会引起阻塞的system call之前,可以暂时释放GIL,但在执行完毕后,必须重新获取GIL Python 3.x使用计时器(执行时间达到阈值后,当前线程释放GIL)或Python 2.x,tickets计数达到100
那如何提升多核CPU的资源呢,解决办法就是Python使用多进程。
如果需要使用多线程的情况下,就要看该处理任务是用于做什么计算了, 总结如下:
在 处理像科学计算 这类需要持续使用cpu的任务的时候 单线程会比多线程快
在 处理像IO操作等可能引起阻塞的这类任务的时候 多线程会比单线程。如:多线程爬取比单线程性能有提升,因为遇到IO阻塞会自动释放GIL锁
案例
1