【WebScraping】并行下载_多线程爬虫&多进程爬虫
当一个线程等待下载时,进程可以切换到其他线程执行,避免浪费cpu时间,即:将下载分发到多个进程和线程中
【思路整理】
针对待爬取的URL队列
(1)若将队列存储在本地内存中,则只能用单独的进程处理该队列,
但进程里可以分为多个线程,对该进程的不同部分进行处理,
用多线程爬虫实现;
(2)若将队列单独存储(MongoDB队列),则不同服务器上的爬虫能协同处理同一个爬虫任务,实现多个进程同时
原创
2016-11-08 14:57:46 ·
1624 阅读 ·
0 评论