python爬虫6—高性能异步爬虫

在下小天n

于 2024-02-03 22:19:16 发布

阅读量3.5k

点赞数 6

分类专栏：爬虫文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63860007/article/details/136017375

版权

如果有多个URL等待我们爬取，我们通常是一次只能爬取一个，爬取效率低，异步爬虫可以提高爬取效率，可以一次多多个URL同时同时发起请求

异步爬虫方式：
一、多线程、多进程（不建议）：可以为爬取阻塞（多个URL等待爬取）单独开启线程或进程，多个爬取URL异步执行（不能开启无限多个）
二、线程池、进程池：可以降低系统对进程或者线程创建和消除的频率，从而降低系统的开销，池中进程或线程的数量是有上限的
一、单线程串行爬取

用时间延时模拟爬取每个网址的耗时时间
单线程爬取一次只能爬取一个，以下面为例，一次爬取一个，爬取4个需要8秒

import time

# 模拟爬取每个网址耗时
def get_page(url):
    time.sleep(2)

# 开始时间
start_time = time.time()
# URL
url_list = ['url1', 'url2', 'url3', 'url4']
for url in url_list:
    get_page(url)
# 结束时间
end_time = time.time()
# 输出总耗时
print(end_time-start_time)

二、多线程并行爬取

一次可以对多个URL同时进行爬取，以下面为例，开启4个进程，则可以对4个URL同时发起请求，总时间为2秒

import time
from multiprocessing.dummy import Pool

# 模拟爬取每个网址耗时
def

最低0.47元/天解锁文章

博客等级

码龄3年

108
原创

1126
点赞

939
收藏

819
粉丝

关注

私信

热门文章

分类专栏

java 1篇
力扣 2篇
扩散模型 12篇
小技巧 1篇
图神经网络 14篇
深度学习 17篇
机器学习 19篇
python基础 4篇
pyqt 1篇
爬虫 6篇
bug 1篇
数据运营 6篇
excel 1篇
tableau 3篇
powerbi 4篇
sql 5篇
PTA

最新评论

研究生第一次刷力扣day1
2401_84079994: as I checked, dictionary {} in Python is equivalent to the indexed array in Oracle PL/SQL. In other words, associative array or array on hash. It is like you do not have to look into a book page by page for a specific word. In stead, you go to the book index to find page number containing the word and then directly reach to that page. So build a hash array during the loop will speed up the whole process.
研究生第一次刷力扣day1
在下小天n: def find_combination(numbers, target, partial=[]): s = sum(partial) if s == target: return partial if s >= target: return None for i in range(len(numbers)): n = numbers[i] remaining = numbers[i+1:] result = find_combination(remaining, target, partial + [n]) if result is not None: return result return None numbers1 = [1, 2, 3, 4, 5, 6, 7, 8, 9] numbers2 = [1, 1, 2, 2, 5, 6, 7, 8, 9] target = 14 result1 = find_combination(numbers1, target) result2 = find_combination(numbers2, target) print(f"Combination for case 1: {result1}") print(f"Combination for case 2: {result2}")
研究生第一次刷力扣day1
2401_84079994: case 1: given 1,2,3,4,5,6,7,8,9 ask for 14 case 2: given 1,1,2,2,5,6,7,8,9 ask for 14 in case 2, do you want to loop again for 2nd 1 and 2nd 2 before reach 5?
研究生第一次刷力扣day1
撑暮: 脑袋里面没有知识点，怎办？毫无头绪
研究生第一次刷力扣day1
在下小天n: 按题目类型刷题，数学数组链表这样

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。