Python网络爬虫---urllib库介绍

最新推荐文章于 2024-04-23 16:42:17 发布

db_hsk_2099

最新推荐文章于 2024-04-23 16:42:17 发布

阅读量1.9k

点赞数 33

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2301_77572709/article/details/135440001

版权

1·urllib库简介

·用途：urllib库是python的标准库之一，是python内置的HTTP请求库，用于发送HTTP/FTP请求，它可以看作处理URL的组件集合。

·特点：简单易用，支持HTTP、HTTPS、FTP等协议。

2.urllib库包含4大模块：

目录：

（1）urllib.request

（2）urllib.parse

（3）urllib.error

（4）urllib.robotparser

2.1urllib.request：请求模块

功能：用于打开和读取URLs。
主要方法：urlopen(url[, data][, timeout])
- urlopen(url)：打开URL并返回响应对象。
- urlopen(url, data)：向URL发送POST请求。
- urlopen(url, data, timeout)：指定超时时间。

urllib.request是Python的标准库之一，用于发送HTTP请求。它提供了一个简单的接口来发送HTTP请求，并获取服务器的响应。以下是urllib.request的一些主要功能：

1.打开和读取URLs：urllib.request模块提供了函数来打开和读取URLs。最常用的函数是urlopen()，它接受一个URL字符串作为参数，并返回一个响应对象。响应对象中包含了服务器返回的内容、状态码、头部信息等。

2.发送GET请求：urllib.request模块提供了函数来发送GET请求。get()函数接受一个URL字符串作为参数，并返回一个响应对象。

3.发送POST请求：urllib.request模块也提供了函数来发送POST请求。post()函数接受一个URL字符串和一个包含表单数据的字典作为参数，并返回一个响应对象。

4.设置请求头部信息：urllib.request模块允许用户通过设置Request对象的headers属性来添加自定义的请求头部信息。

5.处理重定向和Cookie：urllib.request模块会自动处理重定向和Cookie。对于重定向，它会跟随服务器返回的新的URL；对于Cookie，它会将Cookie存储在CookieJar中，并在后续请求中自动发送。

6.身份认证和代理设置：urllib.request模块支持身份认证和代理设置。可以使用Request对象的add_auth()方法和set_proxy()方法来设置身份认证和代理。

7.文件上传：urllib.request模块还支持文件上传。可以使用Request对象的set_data()方法来设置要上传的文件数据，并指定Content-Type头部信息。

总的来说，urllib.request模块是一个功能强大的工具，用于发送HTTP请求并获取服务器的响应。它提供了一个简单易用的接口，使得在Python中进行网络编程变得更加方便。

2.2 urllib.parse：url解析模块

·功能：用于解析URLs。
·主要内容：
·quote(string[, safe])：对字符串进行URL编码。
·unquote(string)：对URL编码的字符串进行解码。
·urlparse(urlstring[, scheme='', allow_fragments=True])：解析URL。

urllib.parse是一个Python标准库模块，用于处理URLs。它提供了一系列函数来解析、构建、和操作URLs。以下是urllib.parse的主要功能：

1.URL解析：urllib.parse模块定义了一个标准接口，用于在组件中解析统一资源定位符（URL）字符串（寻址方案，网络位置，路径等），将组件组合回URL字符串，并将“相对URL”转换为绝对URL。具体来说，urllib.parse.urlparse()函数可以将URL字符串解析为六个组件，并返回一个包含这些组件的ParseResult对象。

2.URL编码和解码：urllib.parse模块提供了quote()和unquote()函数来进行URL编码和解码。quote()函数对字符串进行URL编码，而unquote()函数对URL编码的字符串进行解码。
URL拼接：urllib.parse模块的urljoin()函数用于拼接URLs。它可以处理相对URL和绝对URL，并返回一个绝对URL。

3.支持多种URL方案：urllib.parse模块支持多种URL方案，如file, ftp, gopher, hdl, http, https, imap, mailto, mms, news, nntp, prospero, rsync, rtsp, rtspu, sftp, shttp, sip, sips, snews, svn, svn+ssh, telnet, wais, ws, wss等。

总的来说，urllib.parse模块是一个功能强大的工具，用于处理和操作URLs。它提供了一组函数来解析、构建、编码和解码URLs，使得在Python中进行网络编程变得更加方便。

2.3urllib.error：异常处理模块

·功能：异常处理。
·主要异常：URLError, HTTPError等。

urllib.error是Python的标准库之一，用于处理urllib模块在发送HTTP请求时可能引发的异常。它包含了两个主要的异常类：URLError和HTTPError。

URLError是OSError的一个子类，当请求过程中出现网络问题或无法连接到服务器时，会抛出这个异常。它包含一个reason属性，用于说明产生异常的原因，可能是一个字符串错误信息，也可能是另外一个异常实例对象。

HTTPError是URLError的一个子类，当服务器返回了错误代码（HTTP状态码大于等于400）时，会抛出这个异常。它也包含一个reason属性，用于说明错误原因。可以通过HTTPError的status属性获取具体的HTTP状态码。

在编写爬虫程序时，可以使用try-except语句来捕获和处理这些异常，以确保程序的稳定性和可靠性。同时，也可以根据需要对异常进行更详细的分类处理，例如只处理特定类型的HTTPError异常。

除了URLError和HTTPError之外，urllib.error还可能包含其他与URL解析和处理相关的异常类。具体可查阅Python官方文档或相关资料以获取更详细的信息。

2.4urllib.robotparser:robots.txt模块

urllib.robotparser是一个Python标准库中的模块，用于解析robots.txt文件。robots.txt（统一小写）是一种存放于网站根目录下的robots协议，它通常用于告诉搜索引擎对网站的抓取规则。通过urllib.robotparser模块，可以读取、解析和遵循robots.txt文件中的规则，以确定爬虫是否可以访问特定的网站或URL。

urllib.robotparser提供了RobotFileParser类，这个类提供了一系列方法用于处理robots.txt文件。以下是一些常用的方法：

1.set_url(url)：设置指向robots.txt文件的URL。
2.read():读取robots.txt URL并将其输入解析器。
3.parse(lines)：解析robots.txt文件，传入的参数是robots.txt文件中的某些行内容。
4.can_fetch(user-agent, url)：判断user-agent是否有权限抓取url的内容。

使用urllib.robotparser可以方便地解析robots.txt文件并获取相应的抓取规则，以便在爬虫开发中遵循这些规则，避免对网站造成不必要的干扰或违反robots协议。

3.使用Urllib 发送HTTP请求示例

1.GET请求

import urllib.request  
  
url = "http://example.com"  
response = urllib.request.urlopen(url)  
data = response.read()  # 读取响应内容

2.POST请求

import urllib.request  
import urllib.parse  
  
url = "http://example.com"  
data = urllib.parse.urlencode({'key1': 'value1', 'key2': 'value2'})  # 编码数据  
req = urllib.request.Request(url, data)  # 创建请求对象，传入URL和数据  
response = urllib.request.urlopen(req)  # 发送请求并获取响应  
data = response.read()  # 读取响应内容

4.Urllib 的高级用法和注意事项

1.设置超时时间：在urlopen方法中可以指定timeout参数来设置超时时间。
2.处理异常：使用try-except语句来捕获和处理URLError和HTTPError等异常。
3.设置请求头：通过Request对象的add_header()方法可以设置请求头信息。
4.身份认证和代理设置：通过Request对象的set_proxy()和add_header()方法可以实现身份认证和代理设置。

db_hsk_2099

关注

33
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫---urllib库介绍

·用途：urllib库是python的标准库之一，是python内置的HTTP请求库，用于发送HTTP/FTP请求，它可以看作处理URL的组件集合。·特点：简单易用，支持HTTP、HTTPS、FTP等协议。urllib.request是Python的标准库之一，用于发送HTTP请求。它提供了一个简单的接口来发送HTTP请求，并获取服务器的响应。以下是urllib.request的一些主要功能：1.打开和读取URLs：urllib.request模块提供了函数来打开和读取URLs。最常用的函数是urlopen
复制链接

扫一扫