python爬虫之URLError、HTTPError以及requests中的SSLError

本文介绍了Python爬虫中常见的URLError、HTTPError及SSLError错误类型及其产生原因。URLError通常由网络问题引起,HTTPError则与服务器响应状态码有关,而SSLError涉及HTTPS请求时的证书验证问题。

python爬虫时,我们在使用urlopen()或者opener.open()发出请求时,如果这个请求无法得到处理,那么,就会产生错误。常见的错误有URLError、HTTPError以及requests中的SSLError,下面我们来一一结束。

URLError

    产生原因:

        1,没有网络连接

        2,服务器连接失败

        3,找不到指定的服务器

    我们可以使用try....except....来捕获异常,如下所示:

    

    结果如下:

    <urlopen error [Errno 8] nodename nor servname provided, or not known>

    原因是找不到指定的服务器

HTTPError

HTTPError是URLError的子类,我们在发送http请求时,服务器上都会有一个应答对象,其中,会包含一个响应状态码。如果能处理的,会产生一个HTTPError,对应相应的状态码,HTTP状态码表示HTTP协议所返回的响应的状态。其中,100-299表示成功,以3开头的表示重定向,400-599表示失败。


结果为:

404
HTTP Error 404: Not Found

表示服务器无法找到请求,出现这种结果的原因,要么url错误,要么ip被封!

SSLError

requests请求时,如果对方网站是https的,往往需要验证证书。如果SSL证书验证不通过,或者不信任服务器的安全证书,则会报出SSLError。如12306网站。

此时,如果我们又想访问此网站,又不想验证,应该怎么办?我们可以跳过证书的验证。


<think>好的,我现在需要帮助用户学习如何使用Pythonrequests库进行网络请求。首先,用户明确提到想要一个使用教程和示例,所以我应该从基础开始,逐步介绍常用的HTTP方法,比如GET和POST,以及错误处理和高级功能,比如设置请求头和代理。 首先,用户的问题是关于requests库的使用,所以我需要确保覆盖主要的请求类型。根据引用[4],GET请求可以通过params参数传递URL参数,这应该作为第一个示例。然后,POST请求通常需要传递数据,比如表单或JSON,这也是常见的用例。 接下来,错误处理部分,引用[1]提到了Requests可以抛出异常,比如HTTPError和Timeout,所以需要在教程中加入try-except块来处理这些异常,确保用户知道如何捕获和处理常见的网络问题。 另外,用户提供的引用[3]提到了代理请求,这部分可以作为高级用法来介绍。安装requests库之后,设置代理的方法需要详细说明,比如在get方法中传递proxies参数。 然后,请求头的设置也很重要,引用[4]中提到了在GET请求中设置请求头的例子,所以这里应该包括如何自定义User-Agent或其他头部信息。 关于安装部分,用户可能已经知道,但为了完整性,还是应该简要提及,如引用[3]所示,使用pip安装requests库。 在组织内容时,需要按照逻辑顺序,从安装到基本请求,再到高级功能,最后是错误处理。每个部分都应有代码示例,并保持代码简洁,符合用户提供的示例中的格式,比如使用代码块,并确保语法正确。 同时,用户要求生成相关问题,可能需要包括性能优化、会话对象的使用、文件上传、证书验证等,这些问题可以帮助用户进一步探索。 最后,检查所有引用是否正确对应,比如引用[1]关于异常处理,引用[3]关于代理,引用[4]关于GET参数和请求头。确保引用标记正确,没有遗漏或错误。 现在需要确保回答结构清晰,分步骤讲解,每个部分都有示例代码,并且自然融入引用。同时,问题部分需要涵盖用户可能感兴趣的后续主题,比如会话管理、文件上传、身份验证等。</think>### Python Requests库使用教程 #### 一、安装与基础使用 1. **安装库** 使用pip安装(如引用[3]所述): ```bash pip install requests ``` 2. **发送GET请求** 通过`params`传递URL参数(如引用[4]示例): ```python import requests params = {'q': 'requests+language:python'} response = requests.get('https://api.github.com/search/repositories', params=params) print(response.status_code) # 输出状态码 print(response.json()) # 解析JSON响应 ``` 3. **自定义请求头** 添加`headers`参数模拟浏览器访问: ```python headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get('https://example.com', headers=headers) ``` --- #### 二、POST请求与数据提交 1. **提交表单数据** 使用`data`参数发送表单: ```python data = {'username': 'admin', 'password': 'test'} response = requests.post('https://httpbin.org/post', data=data) ``` 2. **发送JSON数据** 使用`json`参数自动序列化: ```python json_data = {'key': 'value'} response = requests.post('https://api.example.com/submit', json=json_data) ``` --- #### 三、错误处理(如引用[1]示例) ```python from requests.exceptions import HTTPError, Timeout try: response = requests.get('https://api.github.com', timeout=1) response.raise_for_status() # 检查HTTP错误 except HTTPError as http_err: print(f'HTTP错误: {http_err}') except Timeout as timeout_err: print(f'超时错误: {timeout_err}') except Exception as err: print(f'其他错误: {err}') ``` --- #### 四、高级功能 1. **代理设置**(如引用[3]所述) 通过`proxies`参数配置代理: ```python proxies = {'http': 'http://10.10.1.10:3128', 'https': 'http://10.10.1.10:1080'} response = requests.get('https://example.com', proxies=proxies) ``` 2. **会话保持** 使用`Session`对象复用TCP连接: ```python with requests.Session() as s: s.get('https://example.com/login') # 保持Cookies response = s.get('https://example.com/dashboard') ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值