python异步爬虫（简单示例了解单线程和构建线程池）

最新推荐文章于 2024-03-31 23:26:58 发布

进击的小叶

最新推荐文章于 2024-03-31 23:26:58 发布

阅读量274

点赞数

分类专栏：爬虫 python 文章标签： Python 异步爬虫线程池 URL请求效率提升

本文链接：https://blog.csdn.net/weixin_42435368/article/details/118640258

版权

爬虫同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

python

7 篇文章 0 订阅

订阅专栏

python执行程序时，都会遵守从上到下，一行一行来，在执行爬虫时也一样。

如果是一步一步来，这种代码执行方式可以称作单线程，串行方式，在URL少的时候没什么，一旦需要对很多URL进行请求时，效率很低，完全没有必要等一个完了再进行另外一个。于是就有了异步爬虫的概念，在小编看来，异步的意思就是同时执行的意思，也就是同时对多个URL请求，可以大大提高爬虫的效率。

整体的思路是这样的，我们引入线程池，将请求可以封装成一个函数，将函数放在线程池中，再将请求URL形成一个列表也放入线程池中，就可以遍历列表所有的元素，同时将元素放入函数内执行。

以例子来说明，如果我们现在需要对5个网页进行爬取，每次爬取时间为3秒，使用单线程模式

下面模拟演示单线程的

import time
#单线程实例
def get_url(url):
    print('正在爬取：',url)
    time.sleep(3)#模拟爬取所用的时间
    print(url,'爬取完成')

start_time = time.time()

url_list = ['www.1.com','www.2.com','www.3.com','www.4.com','www.5.com']
for i in url_list:
    get_url(i)

finish_time = time.time()
time = finish_time - start_time
print('程序总耗时：',time)

执行结果为

使用时间戳 time.time()进行计时，最后，五个爬取的时间为15秒多。

换成构建线程池的方式进行异步爬虫：

首先需要从multiprocessing.dummy导入Pool这个类,传入函数和url列表进去即可，代码如下

#使用异步爬虫线程池
import time
from multiprocessing.dummy import Pool
url_list = ['www.1.com','www.2.com','www.3.com','www.4.com','www.5.com']
def get_url(url):
    print('正在爬取：',url)
    time.sleep(3)
    print(url,'爬取完成')

start_time = time.time()
pool = Pool(5)#实例化一个线程池对象  创建5个线程
pool.map(get_url,url_list)#将参数传入map中  若函数有返回值则可以在前面添加变量
finish_time = time.time()
time = finish_time - start_time
print('程序总耗时：',time)

使用上述程序就可以同时进行5个网页的爬取，运行结果如下

此时用时大约3秒，说明5个模拟爬虫的函数同时进行。

可以看出，使用异步的方式可以大大缩短时间，提高爬虫的效率。

进击的小叶

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python异步爬虫（简单示例了解单线程和构建线程池）

python执行程序时，都会遵守从上到下，一行一行来，在执行爬虫时也一样。如果是一步一步来，这种代码执行方式可以称作单线程，串行方式，在URL少的时候没什么，一旦需要对很多URL进行请求时，效率很低，完全没有必要等一个完了再进行另外一个。于是就有了异步爬虫的概念，在小编看来，异步的意思就是同时执行的意思，也就是同时对多个URL请求，可以大大提高爬虫的效率。整体的思路是这样的，我们引入线程池，将请求可以封装成一个函数，将函数放在线程池中，再将请求URL形成一个列表也放入线程池中，就可以遍历列表所有的元
复制链接

扫一扫

专栏目录