python爬虫urllib3模块详解(2)

Java老杨

于 2024-04-30 13:43:21 发布

阅读量689

点赞数 18

分类专栏：程序员文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_60721823/article/details/138343228

版权

程序员专栏收录该内容

191 篇文章 0 订阅

订阅专栏

这样就正常显示了。

在这里插入图片描述

1.3 重试请求

urllib3可以自动重试请求，request()方法请求重试次数默认为3次，如果要修改重试次数，可以设置retires参数。

import urllib3 # 导入urllib3模块

urllib3.disable_warnings() # 关闭ssl警告

url = ‘https://www.httpbin.org/get’ # get请求测试地址

http = urllib3.PoolManager() # 创建连接池管理对象

r = http.request(‘GET’, url) # 发送GET请求,默认重试请求

r1 = http.request(‘GET’, url, retries=5) # 发送GET请求,设置5次重试请求

r2 = http.request(‘GET’, url, retries=False) # 发送GET请求,关闭重试请求

print(‘默认重试请求次数：’, r.retries.total)

print(‘设置重试请求次数：’, r1.retries.total)

print(‘关闭重试请求次数：’, r2.retries.total)

程序运行结果：

在这里插入图片描述

1.4 处理响应内容

可通过info()方法获取响应头信息。

import urllib3 # 导入urllib3模块

urllib3.disable_warnings() # 关闭ssl警告

url = ‘https://www.httpbin.org/get’ # get请求测试地址

http = urllib3.PoolManager() # 创建连接池管理对象

r = http.request(‘GET’, url) # 发送GET请求,默认重试请求

response_header = r.info() # 获取响应头

for key in response_header.keys(): # 循环遍历打印响应头信息

print(key, ‘:’, response_header.get(key))

在这里插入图片描述

处理服务器返回的JSON信息

通过json模块的 loads() 方法将响应json数据转换为字典类型。

import urllib3 # 导入urllib3模块

import json # 导入json模块

urllib3.disable_warnings() # 关闭ssl警告

url = ‘https://www.httpbin.org/post’ # post请求测试地址

params = {‘name’: ‘Jack’, ‘country’: ‘中国’, ‘age’: 30} # 定义字典类型的请求参数

http = urllib3.PoolManager() # 创建连接池管理对象

r = http.request(‘POST’, url, fields=params) # 发送POST请求

j = json.loads(r.data.decode(‘unicode_escape’)) # 将响应数据转换为字典类型

print(‘数据类型：’, type(j))

print(‘获取form对应的数据：’, j.get(‘form’))

print(‘获取country对应的数据：’, j.get(‘form’).get(‘country’))

在这里插入图片描述

二进制数据

如果响应数据为二进制数据，则可以使用open()函数将二进制数据转换为图片。

import urllib3 # 导入urllib3模块

urllib3.disable_warnings() # 关闭ssl警告

url = ‘http://sck.rjkflm.com:666/spider/file/python.png’ # 图片请求地址

http = urllib3.PoolManager() # 创建连接池管理对象

r = http.request(‘GET’, url) # 发送网络请求

print(r.data) # 打印二进制数据

f = open(‘python.png’, ‘wb+’) # 创建open对象

f.write(r.data) # 写入数据

f.close() # 关闭

运行结果省略。生成图片文件如下：

在这里插入图片描述

2.发送复杂请求

==============================================================================

2.1 设置请求头

示例如下：

import urllib3 # 导入urllib3模块

urllib3.disable_warnings() # 关闭ssl警告

url = ‘https://www.httpbin.org/get’ # get请求测试地址

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36’}

http = urllib3.PoolManager() # 创建连接池管理对象

r = http.request(‘GET’, url, headers=headers) # 发送GET请求

print(r.data.decode(‘utf-8’)) # 打印返回内容

2.2 设置超时

超时的参数与时间可以写在request()方法中，也可以写在PoolManager()实例对象中。

示例：

import urllib3 # 导入urllib3模块

urllib3.disable_warnings() # 关闭ssl警告

baidu_url = ‘https://www.baidu.com/’ # 百度超时请求测试地址

python_url = ‘https://www.python.org/’ # Python 超时请求测试地址

http = urllib3.PoolManager() # 创建连接池管理对象

try:

r = http.request(‘GET’, baidu_url, timeout=0.01) # 发送GET请求，并设置超时时间为0.01秒

except Exception as error:

print(‘百度超时：’, error)

http2 = urllib3.PoolManager(timeout=0.1) # 创建连接池管理对象,并设置超时时间为0.1秒

try:

r = http2.request(‘GET’, python_url) # 发送GET请求

except Exception as error:

print(‘Python超时：’, error)

在这里插入图片描述

如果需要更精准，则可以使用 Timeout 实例对象设置连接超时与读取超时。

示例代码：

import urllib3

from urllib3 import Timeout

urllib3.disable_warnings()

timeout = Timeout(connect=0.5, read=0.1)

http = urllib3.PoolManager(timeout=timeout)

http.request(‘GET’, “https://www.python.org/”)

或者

import urllib3

from urllib3 import Timeout

urllib3.disable_warnings()

timeout = Timeout(connect=0.5, read=0.1)

http = urllib3.PoolManager()

http.request(‘GET’, “https://www.python.org/”, timeout=timeout)

2.3设置代理

设置代理IP需要创建ProxyManager对象，该对象需要有两个参数；proxy_url表示需要使用的代理IP，headers即请求头。

import urllib3 # 导入urllib3模块

url = “http://httpbin.org/ip” # 代理IP请求测试地址

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36’

}

创建代理管理对象

proxy = urllib3.ProxyManager(‘xxxxxxxxxxxx’, headers=headers)

r = proxy.request(‘get’, url, timeout=2.0) # 发送请求

print(r.data.decode()) # 打印返回结果

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

18
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
python爬虫urllib3模块详解(2)

这样就正常显示了。1.3 重试请求urllib3可以自动重试请求，request()方法请求重试次数默认为3次，如果要修改重试次数，可以设置retires参数。import urllib3 # 导入urllib3模块urllib3.disable_warnings() # 关闭ssl警告url = ‘https://www.httpbin.org/get’ # get请求测试地址。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。