【Python从入门到进阶】22、urllib库基本使用

接上篇《21、爬虫相关概念介绍
上一篇我们介绍了爬虫的相关概念,本篇我们来介绍一下用Python实现爬虫的必备基础,urllib库的学习。

一、Python库的概念

我们今后的学习可能需要用到很多python库(library),及引用其他已经编写好的程序代码模块,来提高我们的开发效率。
python库(library)是指一组相关的模块和函数,用于提供特定领域或功能的支持。Python标准库和第三方库都属于Python库。

Python库通常是经过开发人员编写和测试的可重用代码集合。这些库提供了各种常用的函数、类、工具和算法,能够快速解决实际问题和加速开发过程。Python库主要有以下几类:

●标准库:Python官方提供的库,已经包含在Python解释器中,无需安装。Python标准库是指Python官方提供的、包含在Python解释器里的多个模块和包。这些模块和包提供了许多常用的功能,例如文件操作、网络通信、GUI开发、数据处理等等,可以直接在代码中使用。
Python标准库中的模块和函数都经过严格测试和验证,确保其稳定性和可靠性。因此,在实际开发中,我们通常会优先使用Python标准库提供的功能,而不是自己编写代码实现同样的功能。这不仅可以节省时间和精力,还可以提高代码的可维护性和可重用性。


●第三方库:由其他开发者提供的库,需要通过pip等包管理工具单独安装。


●框架:封装了一系列库和工具,提供了更高层次的抽象和专业化的功能,例如Django、Flask、Pygame等。

使用Python库可以大大提升开发效率,减少重复工作和错误率。如果某个功能没有现成的库,我们也可以自行编写并发布自己的库,方便其它人复用。

二、urllib简介

urllib是Python标准库中的一个模块,它包含了很多用于处理URL的功能。常见的用法包括发送HTTP请求、读取和解析网页内容等。具体来说,urllib模块中包含以下子模块:

●urllib.request: 用于发送HTTP请求和获取响应,支持HTTP、HTTPS和FTP协议。
●urllib.error: 包含与HTTP错误相关的异常类。
●urllib.parse: 用于解析和操作URL,例如解析URL参数。
●urllib.robotparser: 用于解析robots.txt文件,该文件告诉网络爬虫哪些页面可以访问。

三、发送HTTP请求

urllib.request模块提供了以下函数用于发送HTTP请求:
1、urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None): 打开一个URL并返回响应对象。可选参数包括POST数据、超时时间、证书文件等。
参数解释:

●url:必需,表示请求的URL地址,可以是一个字符串类型或者一个请求对象。
●data:可选,表示要发送的POST数据,需要以字节流(bytes)形式传递。如果不指定该参数,则默认为GET请求。
●timeout:可选,表示请求超时时间,单位为秒,默认值为None,即永远等待服务器响应。
●cafile:可选,表示SSL证书认证文件路径,通常为.pem文件,用于验证HTTPS请求的合法性。如果不指定该参数,则使用系统默认设置。
●capath:可选,表示SSL证书认证文件夹路径,通常为.pem文件夹,用于验证HTTPS请求的合法性。如果不指定该参数,则使用系统默认设置。
●cadefault:可选,如果设置为True,则使用系统默认的证书位置进行认证,否则需要指定cafile或capath参数。
●context:可选,表示SSL上下文,在处理HTTPS请求时需要使用,用于指定证书和协议等信息。

除了以上参数之外,urllib.request.urlopen()函数还支持一些其他的关键字参数,例如method、headers、origin_req_host、unverifiable等。这些参数可以用于自定义HTTP请求头、指定原始请求主机名、禁用危险的重定向等功能。
2、urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None): 构造一个HTTP请求对象。可选参数包括POST数据、请求头信息等。
参数解释:

●url:必需,表示请求的URL地址,可以是一个字符串类型或者一个请求对象。
●data:可选,表示要发送的POST数据,需要以字节流(bytes)形式传递。如果不指定该参数,则默认为GET请求。
●headers:可选,表示请求头信息,需要以字典类型传递。如果不指定该参数,则使用默认的请求头。
●origin_req_host:可选,表示原始请求主机名,通常用于跨站点请求时设置。如果不指定该参数,则使用目标URL的主机名。
●unverifiable:可选,如果设置为True,则表示请求是否被视为不可验证的。这个参数通常由支持协议处理器设置。
●method:可选,表示HTTP请求方法,可以是GET、POST、PUT、DELETE等。如果不指定该参数,则默认为GET请求。

除了以上参数之外,urllib.request.Request()函数还支持其他的关键字参数,例如version、host、urlencoded等。这些参数可以用于自定义HTTP请求方法、指定请求主机名、编码URL参数等功能。在实际使用中,我们可以根据具体需求选择合适的参数来构造HTTP请求对象。
3、urllib.request.build_opener(*handlers): 创建一个自定义的URL打开器对象,可以通过添加处理器(handler)实现定制化的HTTP请求处理流程。
4、urllib.request.install_opener(opener): 安装一个自定义的URL打开器对象,使其成为默认打开URL的方法。

四、解析HTTP响应

urllib.request.urlopen()函数返回的响应对象包含了以下方法和属性:

●response.read([size]): 读取响应内容,可选参数指定最多读取的字节数。
●response.readline(): 读取一行响应内容。
●response.readlines([sizehint]): 读取所有响应内容并以列表形式返回,每个元素是一行响应内容。
●response.getcode(): 获取HTTP状态码。

HTTP响应状态码指示与HTTP请求相关的返回结果,通常由三位数字组成。其中,第一位数字表示响应类型,后面两位数字表示具体的响应含义。
以下是一些常见的HTTP响应状态码及其含义:

200 OK:请求成功
201 Created:成功创建新资源
204 No Content:请求已成功处理,但没有内容返回
301 Moved Permanently:请求的URL已移动到新地址
302 Found:请求的URL临时转移到其他地址
304 Not Modified:请求的资源未被修改,可以直接使用缓存数据
400 Bad Request:请求参数有误,服务器无法解析请求
401 Unauthorized:请求需要用户认证或者认证失败
403 Forbidden:请求被拒绝访问,通常是因为权限不足
404 Not Found:请求的资源不存在
500 Internal Server Error:服务器出现内部错误

除了以上状态码之外,HTTP协议还定义了很多其他的状态码,例如502 Bad Gateway、503 Service Unavailable等等。在处理HTTP请求和响应时,我们需要通过判断响应状态码来确定HTTP请求是否成功,并根据响应状态码进行下一步操作。

●response.headers: 响应头信息,是一个类字典对象,提供了各种方法来访问头信息。
●response.info(): 获取响应头信息,等价于response.headers。
●response.geturl(): 获取实际请求的URL,可能与原始请求的URL不同。

五、下载文本、图片和视频等文件

urllib.request.retrieve()是Python标准库中的一个函数,用于下载文件并保存到本地。该函数有两个参数:

●url:必需,表示要下载的文件的URL地址。
●filename:可选,表示文件保存路径和名称。如果不指定该参数,则使用默认的文件名。
除了以上参数之外,urllib.request.retrieve()函数还支持以下两个参数:
●reporthook: 可选,回调函数,每次读取块时都会调用此函数。该函数通常用于显示下载进度等信息。
●data:可选,POST数据,需要以字节流(bytes)形式传递。

使用urllib.request.retrieve()函数可以方便地下载文件并保存到本地,例如:

import urllib.request

url = 'https://www.baidu.com/img/PCfb_5bf082d29588c07f842ccde3f97243ea.png'
filename = 'baidu_logo.png'
urllib.request.urlretrieve(url, filename)

这段代码将下载位于url变量中的文件,并保存在名为filename的文件中。如此便实现了文件下载功能。
效果:

六、urllib其他常用函数

下面主要介绍一下urllib.parse模块的函数。
urllib.parse是Python标准库中的一个模块,用于URL解析、编码和构造相关的操作。该模块包含了各种与URL相关的函数和类,可以方便地进行URL参数解析、拼接、编码和反编码等操作。

1、quote函数

urllib.parse.quote()是Python标准库中的一个函数,用于将字符串编码为URL安全的格式。在HTTP请求和URL参数传递过程中,某些字符可能会被解释为特殊含义或不安全字符,此时需要使用quote()函数进行编码,以避免这些字符对数据产生影响。

该函数有一个必需参数string,表示要编码的字符串。除此之外,还有两个可选参数:

●safe:表示不需要编码的字符,可以是字符串类型或者字节流(bytes)类型。默认值为/,表示/字符不需要编码。
●encoding:表示原始字符串的编码方式,默认值为utf-8。

urllib.parse.quote()函数将原始字符串中所有非ASCII字符、保留字符(如:、/、?等)和不安全字符(如空格、换行符等)都转换为%后跟两位十六进制数的形式,表示其在URL中的编码格式。例如:

import urllib.parse

url = 'https://example.com/search?q='
query = 'python 编程'
encoded_query = urllib.parse.quote(query)
full_url = url + encoded_query
print(full_url)

结果:

https://example.com/search?q=python%20%E7%BC%96%E7%A8%8B

以上代码将字符串query中的空格编码成%20,汉字也被编码成%十六进制数的形式,生成了一个URL地址,其中搜索关键词已经被正确编码。在构造URL时,我们通常需要使用urllib.parse.quote()函数将URL参数进行编码,以确保URL的正确性和安全性。

2、urlencode函数

urllib.parse.urlencode()是Python标准库中的一个函数,用于将字典类型或包含键值对元组的可迭代对象编码为URL参数。在HTTP请求和URL参数传递过程中,我们需要将数据转换为URL安全格式,并拼接到URL地址后面进行传递,此时就可以使用urlencode()函数进行编码。

该函数有一个必需参数params,表示要编码的字典类型或可迭代对象(如列表、元组等)。除此之外,还有三个可选参数:

●doseq:表示是否需要将相同参数名的多个值都编码并拼接到URL参数中,默认值为False。
●safe:表示不需要编码的字符,可以是字符串类型或者字节流(bytes)类型。默认值为/,表示/字符不需要编码。
●encoding:表示原始字符串的编码方式,默认值为utf-8。

urllib.parse.urlencode()函数将字典类型或可迭代对象中所有的键值对按照key=value的格式进行拼接,并将其编码为URL安全格式。例如:

import urllib.parse

params = {'name': 'Alice', 'age': 20}
encoded_params = urllib.parse.urlencode(params)
url = 'https://example.com/search?' + encoded_params
print(url)

结果:

https://example.com/search?name=Alice&age=20

以上代码将params字典类型的数据编码为URL参数,并拼接到URL地址后面,生成了一个完整的URL地址。在构造URL时,我们通常需要使用urllib.parse.urlencode()函数将URL参数进行编码,以确保URL的正确性和安全性。

3、urlencode.encode函数

urllib.parse.urlencode(params).encode()方法将字符串类型的数据编码为bytes类型,例如:

data = 'name=Alice&age=20'
encoded_data = data.encode()
print(encoded_data)    

结果:

b'name=Alice&age=20'

当我们需要使用POST方法向服务器传递数据时,通常需要将数据编码为bytes类型。因此,可以将urlencode()函数和encode()方法结合使用,将字典类型的数据编码为bytes类型的数据,例如:

import urllib.parse
params = {'name': 'Alice', 'age': 20}
encoded_params = urllib.parse.urlencode(params).encode()

以上代码将字典类型的params数据编码为URL参数形式的字符串,并将其转换为bytes类型的数据encoded_params。在实际开发中,我们可以根据具体需求选择合适的参数和方式,完成HTTP请求和URL参数的编码和解码工作。

七、示例代码

下面是一个简单的使用urllib.request模块发送HTTP请求并获取响应的示例代码:

import urllib.request

# 下面模拟浏览器向服务器发送请求
# 发送HTTP GET请求
response = urllib.request.urlopen('http://www.baidu.com/')
print(response.getcode())

# 发送HTTP POST请求
# city 是搜索城市名,date是要查询的天气日期
data = {'city': '郑州', 'date': '2023-05-31'}
# urlencode 将字典类型的数据data转换为URL参数形式的字符串(city=郑州&date=2023-05-31)
# .encode():将字符串类型的URL参数编码为bytes类型。由于HTTP请求中需要传递bytes类型的数据,因此需要使用该方法进行编码。
data = urllib.parse.urlencode(data).encode()
req = urllib.request.Request(url='https://api.asilu.com/weather/', data=data)

# 添加自定义请求头
req.add_header('User-Agent', 'Mozilla/5.0')
response = urllib.request.urlopen(req)
print(response.read().decode())

这个示例代码首先使用urllib.request.urlopen()函数发送HTTP GET请求,并打印响应状态码。接着,它构造了一个HTTP POST请求,并添加了自定义的User-Agent请求头,最后发送请求并打印响应内容。
结果:

200
{
    "city": "郑州",
    "update_time": "11:30",
    "date": "5月31日",
    "weather": [{
        "date": "31日(今天)",
        "weather": "阴转多云",
        "icon1": "02",
        "icon2": "01",
        "temp": "28/19℃",
        "w": "",
        "wind": "东风转西风",
        "icond": "104",
        "iconn": "151"
    }, {
        "date": "1日(明天)",
        "weather": "晴转多云",
        "icon1": "00",
        "icon2": "01",
        "temp": "31/20℃",
        "w": "3-4级",
        "wind": "西北风转西南风",
        "icond": "100",
        "iconn": "151"
    }, {
        "date": "2日(后天)",
        "weather": "阴",
        "icon1": "02",
        "icon2": "02",
        "temp": "27/19℃",
        "w": "3-4级转",
        "wind": "北风转西北风",
        "icond": "104",
        "iconn": "104"
    }, {
        "date": "3日(周六)",
        "weather": "小雨",
        "icon1": "07",
        "icon2": "07",
        "temp": "25/19℃",
        "w": "",
        "wind": "西南风",
        "icond": "305",
        "iconn": "305"
    }, {
        "date": "4日(周日)",
        "weather": "小雨转多云",
        "icon1": "07",
        "icon2": "01",
        "temp": "23/18℃",
        "w": "",
        "wind": "西南风转西风",
        "iconn": "151",
        "icond": "305"
    }, {
        "date": "5日(周一)",
        "weather": "多云转晴",
        "icon1": "01",
        "icon2": "00",
        "temp": "30/20℃",
        "w": "",
        "wind": "南风转西南风",
        "icond": "101",
        "iconn": "150"
    }, {
        "date": "6日(周二)",
        "weather": "阴",
        "icon1": "02",
        "icon2": "02",
        "temp": "30/21℃",
        "w": "3-4级",
        "wind": "南风",
        "icond": "104",
        "iconn": "104"
    }]
}

以上就是关于urllib库的基本使用,下一篇我们来学习通过urllib的post请求实现百度翻译的效果。

参考:尚硅谷Python爬虫教程小白零基础速通教学视频

转载请注明出处:https://blog.csdn.net/acmman/article/details/130975114

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

光仔December

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值