python异步爬虫(简单示例了解单线程和构建线程池)

python执行程序时,都会遵守从上到下,一行一行来,在执行爬虫时也一样。

如果是一步一步来,这种代码执行方式可以称作单线程,串行方式,在URL少的时候没什么,一旦需要对很多URL进行请求时,效率很低,完全没有必要等一个完了再进行另外一个。于是就有了异步爬虫的概念,在小编看来,异步的意思就是同时执行的意思,也就是同时对多个URL请求,可以大大提高爬虫的效率。

整体的思路是这样的,我们引入线程池,将请求可以封装成一个函数,将函数放在线程池中,再将请求URL形成一个列表也放入线程池中,就可以遍历列表所有的元素,同时将元素放入函数内执行。

以例子来说明,如果我们现在需要对5个网页进行爬取,每次爬取时间为3秒,使用单线程模式

下面模拟演示单线程的

import time
#单线程实例
def get_url(url):
    print('正在爬取:',url)
    time.sleep(3)#模拟爬取所用的时间
    print(url,'爬取完成')

start_time = time.time()

url_list = ['www.1.com','www.2.com','www.3.com','www.4.com','www.5.com']
for i in url_list:
    get_url(i)

finish_time = time.time()
time = finish_time - start_time
print('程序总耗时:',time)

执行结果为

使用时间戳 time.time()进行计时,最后,五个爬取的时间为15秒多。

换成构建线程池的方式进行异步爬虫:

首先需要从multiprocessing.dummy导入Pool这个类,传入函数和url列表进去即可,代码如下

#使用异步爬虫线程池
import time
from multiprocessing.dummy import Pool
url_list = ['www.1.com','www.2.com','www.3.com','www.4.com','www.5.com']
def get_url(url):
    print('正在爬取:',url)
    time.sleep(3)
    print(url,'爬取完成')

start_time = time.time()
pool = Pool(5)#实例化一个线程池对象  创建5个线程
pool.map(get_url,url_list)#将参数传入map中  若函数有返回值则可以在前面添加变量
finish_time = time.time()
time = finish_time - start_time
print('程序总耗时:',time)

 使用上述程序就可以同时进行5个网页的爬取,运行结果如下

 此时用时大约3秒,说明5个模拟爬虫的函数同时进行。

可以看出,使用异步的方式可以大大缩短时间,提高爬虫的效率。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值