python3爬虫系列17之爬虫增速多进程,进程池的用法(白话解释)
1.前言
上一篇文章呢,
python3爬虫系列15之多线程爬取汽车之家批量下载图片,我们采用了多线程的方式来爬取,
在耗时环节呢,感觉并不是很快,才600多张图片花了近21秒。
至于原因呢,也在最后告诉了大家,
多线程下的 GIL 锁让python的多线程显得有点鸡肋, GIL锁 即全局排他锁,保护了数据安全性的同时,使得多线程提高效率的能力几乎丧失,在我们的多核CPU电脑上,Python 的多线程爬虫效率并不高。
所以想要充分利用 CPU,还是用多进程,这样我们就可以做到并行爬取,提高爬取的效率。
那么怎么创建进程呢?怎么创建多进程呢?怎么创建进程池呢?怎么并行爬取呢?
那还得从我们的搬砖说起。。。。