HTTP请求库：Urllib模块

最新推荐文章于 2023-10-08 10:58:39 发布

区块链市场观察家

最新推荐文章于 2023-10-08 10:58:39 发布

阅读量141

点赞数

分类专栏： Python爬虫编程

本文链接：https://blog.csdn.net/soldi_er/article/details/115392238

版权

7 篇文章 0 订阅

订阅专栏

urllib是Python自带的标准库。官方文档https://docs.python.org/3.7/library/urllib.html。
查看官方文档，发现Urllib库有6个py文件，统共是4个模块，如下所示。

文件名	模块	代码量	有效代码量
__init__.py	-	0
request.py	urllib.request请求模块	2740行	推测1000行
response.py	-	80行	70行
error.py	urllib.error异常处理模块
parse.py	urllib.parse是url解析模块	1048行	推测800行
robotparser.py	urllib.robotparser是robots.txt解析模块

源码量略大，遵循二八法则，先通过网上资料掌握常用的使用方法。

测试网址httpbin.org，它可以提供 HTTP 请求测试。

官方文档：https://docs.python.org/3/library/urllib.request.html#module-urllib.request
初步需要掌握常用的函数。接下来简单介绍文档结构。

1. 六个函数方法：urlopen()、install_opener()、build_opener()、pathname2url)、url2pathname()、getproxies()；

2. 很多类：Request()、OpenerDirector、BaseHandler、HTTPDefaultErrorHandler、
HTTPRedirectHandler、HTTPCookieProcessor()、ProxyHandler()；

3. 各个类中包含的objects，主要内容是其中的函数方法。

4. 使用示例Examples

5. 遗留接口Legacy interface，包含Python2的部分函数和类。

函数	简要说明
urllib.request.urlopen(url, data, timeout)	data是字典格式，返回响应实例response
urllib.request.Request()	class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None

urlopen()函数的data是可选的，传递data参数即选择Post传参方式，要求格式是byte。
当我们不需要添加任何请求头信息时，使用urlopen()函数更加方便。

urlopen() 方法可以实现最基本的请求发起，但如果请求中需要加入headers等信息，那么我们可以利用Request类构建一个请求。（将请求独立成一个对象，方便配置参数）

操作	简要说明
创建Request请求实例	request = urllib.request.Request(url)
利用Request请求实例	response = urllib.requset.urlopen(request)
参数data	必须传bytes类型，如果是一个字典，可以先用 urllib.parse.urlencode() 编码
参数headers	是一个字典，可以通过headers参数传递，或add_header()添加请求头
参数method	传参方式，比如Get、Post、Put等

函数	简要说明
1.类实例response	HTTPResposne类型实例，打印得到class信息
2.读取网页response.read()	读取网页内容，返回二进制格式
response.read().decode(‘utf-8’)	输出UTF-8格式数据，包括中文
response.readline()	返回二进制格式页面的第一行
response.readlines()	以列形式返回二进制数据，每行是一个元素
3.读取响应信息response.getcode()	获取状态码
response.getheaders()	获取列表形式响应头，即BP抓包看到的响应头信息
response.getheader(‘Server’)	获取指定的响应头