python爬虫怎么解决超时timeou错误

最新推荐文章于 2024-06-05 10:41:03 发布

小白学大数据

最新推荐文章于 2024-06-05 10:41:03 发布

阅读量1.7k

点赞数

分类专栏：爬虫 python 文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/Z_suger7/article/details/131477603

版权

python 同时被 2 个专栏收录

210 篇文章 5 订阅

订阅专栏

爬虫

124 篇文章 5 订阅

订阅专栏

文章讲述了在执行网络爬虫时遇到请求超时的问题，分析了其可能的原因，如网络状况、服务器延迟等。为了解决这个问题，提出了通过设置timeout参数限制请求时间以及使用代理IP的方法，特别是对于大数据量爬取，建议增加代理IP量以应对高并发情况。示例代码展示了如何在Python的requests库中应用这些策略。

摘要由CSDN通过智能技术生成

爬虫在运行过程会出现各种报错的问题，比如当我们在进行网络爬虫的时候，一般都是先进行网站的访问才能够正常的进行数据的获取，但是有的时候进行网站的访问的时候，总是会出现请求超时的情况。这个就可能是因为网络状况不好或者是服务器的网络出现延迟导致的我们访问请求超时。或者又是在进行网络端口连接的时候时间的延迟也会导致或者是在请求量比较大，目标网站承重量有限的情况下可能会出现下面这种报错。

Max retries exceeded with url:...... Connection to www.xxxx.com timed out

想要来进行解决这个问题，我们可以通过设置timeout()来使得响应速度加快，我们可以将这个方法添加在requests.get()语句中，来限制请求的时间，举子例子，代码如下所示：

req = requests.get(url, headers=headers, proxies=proxies, timeout=(3,7))

还有在爬虫程序里面添加了代理，但是爬取数据量比较大的情况下出现了超时，降低请求量或限制速度都不是好的选择，为了能解决报错和按量采集数据，可以通过增加代理IP的量来解决。高并发的代理IP如何在爬虫程序里面实现，这里附带亿牛云动态转发高请求支持下的爬虫过程：

    #! -*- encoding:utf-8 -*-

    import requests
    import random

    # 要访问的目标页面
    targetUrl = "http://httpbin.org/ip"

    # 要访问的目标HTTPS页面
    # targetUrl = "https://httpbin.org/ip"

    # 代理服务器(产品官网 www.16yun.cn)
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"

    # 代理验证信息
    proxyUser = "username"
    proxyPass = "password"

    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }

    # 设置 http和https访问都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }


    #  设置IP切换头
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}



    resp = requests.get(targetUrl, proxies=proxies, headers=headers)

    print resp.status_code
    print resp.text