Python网络爬虫---urllib库介绍

urllib库简介

·用途:urllib库是python的标准库之一,是python内置的HTTP请求库,用于发送HTTP/FTP请求,它可以看作处理URL的组件集合。

·特点:简单易用,支持HTTP、HTTPS、FTP等协议。

2.urllib库包含4大模块:

目录:

    (1)urllib.request

    (2)urllib.parse

    (3)urllib.error

    (4)urllib.robotparser

 2.1urllib.request:请求模块

  • 功能:用于打开和读取URLs。
  • 主要方法:urlopen(url[, data][, timeout])
    • urlopen(url):打开URL并返回响应对象。
    • urlopen(url, data):向URL发送POST请求。
    • urlopen(url, data, timeout):指定超时时间。

urllib.request是Python的标准库之一,用于发送HTTP请求。它提供了一个简单的接口来发送HTTP请求,并获取服务器的响应。以下是urllib.request的一些主要功能:

1.打开和读取URLs:urllib.request模块提供了函数来打开和读取URLs。最常用的函数是urlopen(),它接受一个URL字符串作为参数,并返回一个响应对象。响应对象中包含了服务器返回的内容、状态码、头部信息等。


2.发送GET请求:urllib.request模块提供了函数来发送GET请求。get()函数接受一个URL字符串作为参数,并返回一个响应对象。


3.发送POST请求:urllib.request模块也提供了函数来发送POST请求。post()函数接受一个URL字符串和一个包含表单数据的字典作为参数,并返回一个响应对象。


4.设置请求头部信息:urllib.request模块允许用户通过设置Request对象的headers属性来添加自定义的请求头部信息。


5.处理重定向和Cookie:urllib.request模块会自动处理重定向和Cookie。对于重定向,它会跟随服务器返回的新的URL;对于Cookie,它会将Cookie存储在CookieJar中,并在后续请求中自动发送。


6.身份认证和代理设置:urllib.request模块支持身份认证和代理设置。可以使用Request对象的add_auth()方法和set_proxy()方法来设置身份认证和代理。


7.文件上传:urllib.request模块还支持文件上传。可以使用Request对象的set_data()方法来设置要上传的文件数据,并指定Content-Type头部信息。


总的来说,urllib.request模块是一个功能强大的工具,用于发送HTTP请求并获取服务器的响应。它提供了一个简单易用的接口,使得在Python中进行网络编程变得更加方便。

 

2.2 urllib.parse:url解析模块

·功能:用于解析URLs。
·主要内容:
         ·quote(string[, safe]):对字符串进行URL编码。
         ·unquote(string):对URL编码的字符串进行解码。
         ·urlparse(urlstring[, scheme='', allow_fragments=True]):解析URL。

urllib.parse是一个Python标准库模块,用于处理URLs。它提供了一系列函数来解析、构建、和操作URLs。以下是urllib.parse的主要功能:

1.URL解析:urllib.parse模块定义了一个标准接口,用于在组件中解析统一资源定位符(URL)字符串(寻址方案,网络位置,路径等),将组件组合回URL字符串,并将“相对URL”转换为绝对URL。具体来说,urllib.parse.urlparse()函数可以将URL字符串解析为六个组件,并返回一个包含这些组件的ParseResult对象。


2.URL编码和解码:urllib.parse模块提供了quote()和unquote()函数来进行URL编码和解码。quote()函数对字符串进行URL编码,而unquote()函数对URL编码的字符串进行解码。
URL拼接:urllib.parse模块的urljoin()函数用于拼接URLs。它可以处理相对URL和绝对URL,并返回一个绝对URL。


3.支持多种URL方案:urllib.parse模块支持多种URL方案,如file, ftp, gopher, hdl, http, https, imap, mailto, mms, news, nntp, prospero, rsync, rtsp, rtspu, sftp, shttp, sip, sips, snews, svn, svn+ssh, telnet, wais, ws, wss等。


总的来说,urllib.parse模块是一个功能强大的工具,用于处理和操作URLs。它提供了一组函数来解析、构建、编码和解码URLs,使得在Python中进行网络编程变得更加方便。

2.3urllib.error:异常处理模块

·功能:异常处理。
·主要异常:URLError, HTTPError等。

urllib.error是Python的标准库之一,用于处理urllib模块在发送HTTP请求时可能引发的异常。它包含了两个主要的异常类:URLError和HTTPError。

URLError是OSError的一个子类,当请求过程中出现网络问题或无法连接到服务器时,会抛出这个异常。它包含一个reason属性,用于说明产生异常的原因,可能是一个字符串错误信息,也可能是另外一个异常实例对象。

HTTPError是URLError的一个子类,当服务器返回了错误代码(HTTP状态码大于等于400)时,会抛出这个异常。它也包含一个reason属性,用于说明错误原因。可以通过HTTPError的status属性获取具体的HTTP状态码。

在编写爬虫程序时,可以使用try-except语句来捕获和处理这些异常,以确保程序的稳定性和可靠性。同时,也可以根据需要对异常进行更详细的分类处理,例如只处理特定类型的HTTPError异常。

除了URLError和HTTPError之外,urllib.error还可能包含其他与URL解析和处理相关的异常类。具体可查阅Python官方文档或相关资料以获取更详细的信息。

2.4urllib.robotparser:robots.txt模块

urllib.robotparser是一个Python标准库中的模块,用于解析robots.txt文件。robots.txt(统一小写)是一种存放于网站根目录下的robots协议,它通常用于告诉搜索引擎对网站的抓取规则。通过urllib.robotparser模块,可以读取、解析和遵循robots.txt文件中的规则,以确定爬虫是否可以访问特定的网站或URL。

urllib.robotparser提供了RobotFileParser类,这个类提供了一系列方法用于处理robots.txt文件。以下是一些常用的方法:

1.set_url(url):设置指向robots.txt文件的URL。
2.read():读取robots.txt URL并将其输入解析器。
3.parse(lines):解析robots.txt文件,传入的参数是robots.txt文件中的某些行内容。
4.can_fetch(user-agent, url):判断user-agent是否有权限抓取url的内容。


使用urllib.robotparser可以方便地解析robots.txt文件并获取相应的抓取规则,以便在爬虫开发中遵循这些规则,避免对网站造成不必要的干扰或违反robots协议。

 3.使用Urllib 发送HTTP请求示例

 1.GET请求

import urllib.request  
  
url = "http://example.com"  
response = urllib.request.urlopen(url)  
data = response.read()  # 读取响应内容

 2.POST请求

import urllib.request  
import urllib.parse  
  
url = "http://example.com"  
data = urllib.parse.urlencode({'key1': 'value1', 'key2': 'value2'})  # 编码数据  
req = urllib.request.Request(url, data)  # 创建请求对象,传入URL和数据  
response = urllib.request.urlopen(req)  # 发送请求并获取响应  
data = response.read()  # 读取响应内容

4.Urllib 的高级用法和注意事项

1.设置超时时间:在urlopen方法中可以指定timeout参数来设置超时时间。
2.处理异常:使用try-except语句来捕获和处理URLError和HTTPError等异常。
3.设置请求头:通过Request对象的add_header()方法可以设置请求头信息。
4.身份认证和代理设置:通过Request对象的set_proxy()和add_header()方法可以实现身份认证和代理设置。

  • 33
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值