Session提高requests的抓取速度小技巧

最新推荐文章于 2023-03-23 20:49:05 发布

我心心念的爬虫啊

最新推荐文章于 2023-03-23 20:49:05 发布

阅读量2.4k

点赞数 1

分类专栏： Python爬虫技巧日常总结文章标签： python

本文链接：https://blog.csdn.net/JJ_BoY/article/details/104019002

版权

Python爬虫技巧日常总结专栏收录该内容

5 篇文章 0 订阅

订阅专栏

使用requests抓取数据的时候，爬虫会模拟浏览器的行为，但是可能不知道，当打开一个网页的时候，requests.get()可能速度很快，但是如果几十个上百个网址的时候呢，这个差距就出来了，例如下面。

import requests
import time

start = time.time()

for _ in range(100):
    resp = requests.get('https://baidu.com').content.decode()
end = time.time()
print(f'访问一百次网页，耗时：{end - start}')

结果是用时20s，时间太长了，如果网站更多，那就更久。但是我们可以改变一下。

import requests
import time

start = time.time()
session = requests.Session()
for _ in range(100):
    resp = session.get('https://baidu.com').content.decode()
end = time.time()
print(f'访问一百次网页，耗时：{end - start}')

结果是用时5S，怎么样这速度就提升了很大了吧，主要就是Session()方法是，爬虫在模拟浏览器的时候，打开另一个网址是相当于重新开了一个窗口用来访问，并不是重新开一个浏览器去访问。这样爬虫不仅行为更像人类，而且节省了很多爬虫后台模拟打开浏览器的行为所浪费的时间。

我心心念的爬虫啊

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Session提高requests的抓取速度小技巧

使用requests抓取数据的时候，爬虫会模拟浏览器的行为，但是可能不知道，当打开一个网页的时候，requests.get()可能速度很快，但是如果几十个上百个网址的时候呢，这个差距就出来了，例如下面。import requestsimport timestart = time.time()for _ in range(100): resp = requests.get('ht...
复制链接

扫一扫

专栏目录