Python爬虫之爬取——限制下载速度

最新推荐文章于 2024-07-05 08:07:04 发布

Vic时代

最新推荐文章于 2024-07-05 08:07:04 发布

阅读量6.6k

点赞数

分类专栏：编程语言Python 文章标签： python 限制爬虫下载速度

本文链接：https://blog.csdn.net/VictoriaW/article/details/77156575

版权

编程语言Python 专栏收录该内容

68 篇文章 3 订阅

订阅专栏

为了避免造成服务器过载，可以在两次下载之间添加时延，从而降低爬虫下载速度。

class Throttle:
    def __init__(self, delay):
        self.delay = delay
        self.domains = {}
    def wait(self, url):
        domain = urlparse.urlparse(url).netloc
        last_accessed = self.domains.get(domain)#get函数在domain不存在时返回None
        if self.delay > 0 and last_accessed is not None:
            sleep_secs = self.delay - (datetime.datetime.now() - last_accessed).seconds
            id sleep_secs > 0:
                time.sleep(sleep_secs)
        self.domains[domain] = datetime.datetime.now()

Throttle记录了每个域名上最后一次访问时间，如果当前访问时间距离上次访问时间的间隔小于5秒，那么程序进入睡眠。

throttle = Throttle(delay)
throttle.wait(url)
result = download(url, headers, proxy=proxy)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Vic时代

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python提高爬虫速度_如何提高爬虫爬取的速度？

weixin_39580727的博客

02-04

433

写了个简单的协程爬虫爬取B站用户信息，代码如下：import requestsimport reimport jsonimport datetimeimport asynciodef get_info(uid):url_info = "http://space.bilibili.com/ajax/member/GetInfo?mid=" #基本信息uid = str(uid)return loop...

Python爬虫之爬取——解析robots.txt文件

最新发布

xiuxiuxiuasd的博客

07-05

1707

事实上，Python社区和开发者也应该关注这个问题，积极寻求更多的解决方案，以提升用户的使用体验。提出几点建议，对于许多初学者和开发者来说，Python官网下载速度慢却是一个令人头疼的问题。本文将对Python官网下载慢的问题进行详细讨论，分析原因，并提出相应的解决方案。这种下载速度慢的问题严重影响了用户的使用体验，也影响了Python的推广和应用。Python官网是获取Python官方版本的主要途径，但近年来，许多用户反映从Python官网下载软件时速度极慢，有时甚至无法完成下载。

python写简单的爬虫——延迟（下载限速）

hide_in_darkness的博客

02-26

1750

import urllib.request as ur from urllib.error import URLError,ContentTooShortError,HTTPError import re from urllib.parse import urljoin from urllib import robotparser import time from urllib.parse imp...

Scrapy设置下载延时和自动限速

m0_49501453的博客

09-09

4959

Scrapy设置下载延时和自动限速 DOWNLOAD_DELAY 在settings.py文件中设置 #延时2秒，不能动态改变，时间间隔固定，容易被发现，导致ip被封 DOWNLOAD_DELAY=2　　 RANDOMIZE_DOWNLOAD_DELAY 在settings.py文件中设置 # 启用后，当从相同的网站获取数据时，Scrapy将会等待一个随机的值，延迟时间为0.5到1.5之间的一个随机值乘以DOWNLOAD_DELAY RANDOMIZE_DOWNLOAD_DELAY=Tru

Python爬取——目前考研招生学校的专业信息及考试范围（研招网）

05-28

压缩包内包含已爬取成功的全部信息和完整代码，导入后即可使用已爬取的信息：全部的省份，全部的学校以及其全部专业的院系所和研究方向，以及招生人数和考试科目。使用的库：from bs4 import BeautifulSoup import...

Python-极简的Requests封装器可以在任何数量的服务的速率限制内同步工作

08-10

极简的Requests封装器，可以在任何数量的服务的速率限制内同步工作。支持并行处理

爬虫3：如何反爬虫和控制爬虫的速度-setting设置

u014229742的博客

08-20

9417

1.修改是否遵守爬虫协议为False # Obey robots.txt rules ROBOTSTXT_OBEY = False 2.修改并发请求数，修改为1，或者2，越小爬取速度越慢，太快容易被识别到 # Configure maximum concurrent requests performed by Scrapy (default: 16) CONCURRENT_REQUE...

python模块下载慢_python的requests模块进行下载限速

weixin_39715513的博客

11-26

806

python的requests模块进行下载带宽限制，进行现在速度限制，避免拉爆服务器。开启requests的stream=True就可以进行渐进式下载，然后再适当的sleep一下。就可以减少下载带宽，限制下载速度了。# NOTE the stream=True parameter belowrecvlen = 0tickss = time.time()with requests.get(mp3ur...

零基础Python爬虫下载图片 10分钟搞定

qq_40850200的博客

03-20

4363

本人从未学过Python 想开始学但是但是不喜欢听理论课就直接开始在时间中学习进入正题Python爬虫非常简单第一步首先获取打开页面获取整个网页源码def getHtml(url): page = urllib.request.urlopen(url) ##打开页面 html = page.read() ##获取目标页面的源码 return htmlhtml就是...

python实现网速控制，限制上传下载速度

weixin_34077371的博客

05-12

3031

　　对于python的web，比如flask使用的werkzeug，首先找到wsgi的请求和响应的代码，使用算法实现大文件的小速率上传和下载　　考虑python实现socket限流　　关于限速的讨论：https://www.v2ex.com/t/142992 　　前端限速：比如浏览器就可以模拟各类速度；https://github.com/tjgq/node-stream-throttle；h...

用python爬虫抓站的一些技巧总结(转)

08-24

325

学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过在discuz论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本，本来想写google music的抓取脚本的，结果有了强大的gmbox，也就不用写了。这些脚本有一个共性，都是和web相关的，总要用到获取链接的一些方法，再加上simplecd这个半爬虫半网站的项目，累积不...

python控制网分_python实现网速控制，限制上传下载速度

weixin_39673947的博客

11-30

733

对于python的web，比如flask使用的werkzeug，首先找到wsgi的请求和响应的代码，使用算法实现大文件的小速率上传和下载考虑python实现socket限流关于限速的讨论：https://www.v2ex.com/t/142992前端限速：比如浏览器就可以模拟各类速度；https://github.com/tjgq/node-stream-throttle；https://keel...