python执行程序时,都会遵守从上到下,一行一行来,在执行爬虫时也一样。
如果是一步一步来,这种代码执行方式可以称作单线程,串行方式,在URL少的时候没什么,一旦需要对很多URL进行请求时,效率很低,完全没有必要等一个完了再进行另外一个。于是就有了异步爬虫的概念,在小编看来,异步的意思就是同时执行的意思,也就是同时对多个URL请求,可以大大提高爬虫的效率。
整体的思路是这样的,我们引入线程池,将请求可以封装成一个函数,将函数放在线程池中,再将请求URL形成一个列表也放入线程池中,就可以遍历列表所有的元素,同时将元素放入函数内执行。
以例子来说明,如果我们现在需要对5个网页进行爬取,每次爬取时间为3秒,使用单线程模式
下面模拟演示单线程的
import time
#单线程实例
def get_url(url):
print('正在爬取:',url)
time.sleep(3)#模拟爬取所用的时间
print(url,'爬取完成')
start_time = time.time()
url_list = ['www.1.com','www.2.com','www.3.com','www.4.com','www.5.com']
for i in url_list:
get_url(i)
finish_time = time.time()
time = finish_time - start_time
print('程序总耗时:',time)
执行结果为
使用时间戳 time.time()进行计时,最后,五个爬取的时间为15秒多。
换成构建线程池的方式进行异步爬虫:
首先需要从multiprocessing.dummy导入Pool这个类,传入函数和url列表进去即可,代码如下
#使用异步爬虫线程池
import time
from multiprocessing.dummy import Pool
url_list = ['www.1.com','www.2.com','www.3.com','www.4.com','www.5.com']
def get_url(url):
print('正在爬取:',url)
time.sleep(3)
print(url,'爬取完成')
start_time = time.time()
pool = Pool(5)#实例化一个线程池对象 创建5个线程
pool.map(get_url,url_list)#将参数传入map中 若函数有返回值则可以在前面添加变量
finish_time = time.time()
time = finish_time - start_time
print('程序总耗时:',time)
使用上述程序就可以同时进行5个网页的爬取,运行结果如下
此时用时大约3秒,说明5个模拟爬虫的函数同时进行。
可以看出,使用异步的方式可以大大缩短时间,提高爬虫的效率。