python爬虫urllib3模块详解

Java老杨

于 2024-04-30 13:43:52 发布

阅读量493

点赞数 24

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_60721823/article/details/138343242

版权

程序员专栏收录该内容

191 篇文章 1 订阅

订阅专栏

本文详细介绍了如何使用Python的urllib3库进行HTTP请求，包括重试机制、响应头处理、JSON数据解析、二进制数据处理、设置请求头、超时控制、代理设置以及文件上传方法。此外，还提到了学习资源的重要性和获取途径。

摘要由CSDN通过智能技术生成

r1 = http.request(‘GET’, url, retries=5) # 发送GET请求,设置5次重试请求

r2 = http.request(‘GET’, url, retries=False) # 发送GET请求,关闭重试请求

print(‘默认重试请求次数：’, r.retries.total)

print(‘设置重试请求次数：’, r1.retries.total)

print(‘关闭重试请求次数：’, r2.retries.total)

程序运行结果：

在这里插入图片描述

1.4 处理响应内容

可通过info()方法获取响应头信息。

import urllib3 # 导入urllib3模块

urllib3.disable_warnings() # 关闭ssl警告

url = ‘https://www.httpbin.org/get’ # get请求测试地址

http = urllib3.PoolManager() # 创建连接池管理对象

r = http.request(‘GET’, url) # 发送GET请求,默认重试请求

response_header = r.info() # 获取响应头

for key in response_header.keys(): # 循环遍历打印响应头信息

print(key, ‘:’, response_header.get(key))

在这里插入图片描述

处理服务器返回的JSON信息

通过json模块的 loads() 方法将响应json数据转换为字典类型。

import urllib3 # 导入urllib3模块

import json # 导入json模块

urllib3.disable_warnings() # 关闭ssl警告

url = ‘https://www.httpbin.org/post’ # post请求测试地址

params = {‘name’: ‘Jack’, ‘country’: ‘中国’, ‘age’: 30} # 定义字典类型的请求参数

http = urllib3.PoolManager() # 创建连接池管理对象

r = http.request(‘POST’, url, fields=params) # 发送POST请求

j = json.loads(r.data.decode(‘unicode_escape’)) # 将响应数据转换为字典类型

print(‘数据类型：’, type(j))

print(‘获取form对应的数据：’, j.get(‘form’))

print(‘获取country对应的数据：’, j.get(‘form’).get(‘country’))

在这里插入图片描述

二进制数据

如果响应数据为二进制数据，则可以使用open()函数将二进制数据转换为图片。

import urllib3 # 导入urllib3模块

urllib3.disable_warnings() # 关闭ssl警告

url = ‘http://sck.rjkflm.com:666/spider/file/python.png’ # 图片请求地址

http = urllib3.PoolManager() # 创建连接池管理对象

r = http.request(‘GET’, url) # 发送网络请求

print(r.data) # 打印二进制数据

f = open(‘python.png’, ‘wb+’) # 创建open对象

f.write(r.data) # 写入数据

f.close() # 关闭

运行结果省略。生成图片文件如下：

在这里插入图片描述

2.发送复杂请求

==============================================================================

2.1 设置请求头

示例如下：

import urllib3 # 导入urllib3模块

urllib3.disable_warnings() # 关闭ssl警告

url = ‘https://www.httpbin.org/get’ # get请求测试地址

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36’}

http = urllib3.PoolManager() # 创建连接池管理对象

r = http.request(‘GET’, url, headers=headers) # 发送GET请求

print(r.data.decode(‘utf-8’)) # 打印返回内容

2.2 设置超时

超时的参数与时间可以写在request()方法中，也可以写在PoolManager()实例对象中。

示例：

import urllib3 # 导入urllib3模块

urllib3.disable_warnings() # 关闭ssl警告

baidu_url = ‘https://www.baidu.com/’ # 百度超时请求测试地址

python_url = ‘https://www.python.org/’ # Python 超时请求测试地址

http = urllib3.PoolManager() # 创建连接池管理对象

try:

r = http.request(‘GET’, baidu_url, timeout=0.01) # 发送GET请求，并设置超时时间为0.01秒

except Exception as error:

print(‘百度超时：’, error)

http2 = urllib3.PoolManager(timeout=0.1) # 创建连接池管理对象,并设置超时时间为0.1秒

try:

r = http2.request(‘GET’, python_url) # 发送GET请求

except Exception as error:

print(‘Python超时：’, error)

在这里插入图片描述

如果需要更精准，则可以使用 Timeout 实例对象设置连接超时与读取超时。

示例代码：

import urllib3

from urllib3 import Timeout

urllib3.disable_warnings()

timeout = Timeout(connect=0.5, read=0.1)

http = urllib3.PoolManager(timeout=timeout)

http.request(‘GET’, “https://www.python.org/”)

或者

import urllib3

from urllib3 import Timeout

urllib3.disable_warnings()

timeout = Timeout(connect=0.5, read=0.1)

http = urllib3.PoolManager()

http.request(‘GET’, “https://www.python.org/”, timeout=timeout)

2.3设置代理

设置代理IP需要创建ProxyManager对象，该对象需要有两个参数；proxy_url表示需要使用的代理IP，headers即请求头。

import urllib3 # 导入urllib3模块

url = “http://httpbin.org/ip” # 代理IP请求测试地址

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36’

}

创建代理管理对象

proxy = urllib3.ProxyManager(‘xxxxxxxxxxxx’, headers=headers)

r = proxy.request(‘get’, url, timeout=2.0) # 发送请求

print(r.data.decode()) # 打印返回结果

（代理IP自行设置）

3.上传文件

============================================================================

request()方法提供了两种比较常用的文件上传方式：

①一种是通过fields参数以元组的形式分别指定文件名、文件内容以及文件类型

②另一种指定body参数，该参数对应值为图片的二进制数据，然后还需要headers参数指定文件类型

上传文本文件

创建一个test.txt文件放在相同目录下进行测试。

import urllib3 # 导入urllib3模块

做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。

别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。

我先来介绍一下这些东西怎么用，文末抱走。

（1）Python所有方向的学习路线（新版）

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。

在这里插入图片描述

（2）Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

（3）100多个练手项目

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

在这里插入图片描述

（4）200多本电子书

这些年我也收藏了很多电子书，大概200多本，有时候带实体书不方便的话，我就会去打开电子书看看，书籍可不一定比视频教程差，尤其是权威的技术书籍。

基本上主流的和经典的都有，这里我就不放图了，版权问题，个人看看是没有问题的。

（5）Python知识点汇总

知识点汇总有点像学习路线，但与学习路线不同的点就在于，知识点汇总更为细致，里面包含了对具体知识点的简单说明，而我们的学习路线则更为抽象和简单，只是为了方便大家只是某个领域你应该学习哪些技术栈。

在这里插入图片描述

（6）其他资料

还有其他的一些东西，比如说我自己出的Python入门图文类教程，没有电脑的时候用手机也可以学习知识，学会了理论之后再去敲代码实践验证，还有Python中文版的库资料、MySQL和HTML标签大全等等，这些都是可以送给粉丝们的东西。

在这里插入图片描述

这些都不是什么非常值钱的东西，但对于没有资源或者资源不是很好的学习者来说确实很不错，你要是用得到的话都可以直接抱走，关注过我的人都知道，这些都是可以拿到的。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

Java老杨

关注

24
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录