Python urllib库的使用全攻略

最新推荐文章于 2024-04-23 16:42:17 发布

BBBboon

最新推荐文章于 2024-04-23 16:42:17 发布

阅读量1.4k

点赞数 1

分类专栏： Python使用手册文章标签： python https 开发语言爬虫网络爬虫

本文链接：https://blog.csdn.net/m0_49410492/article/details/124932436

版权

Python使用手册专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Python urllib库

作用：用于操作网页url，并对网页内容进行抓取。

urllib库分为以下几个模块：

urllib.request 打开和读取url
urllib.error 包含urllib.request抛出的异常
urllib.parse 解析url
urllib.robotparser 解析robot.txt文件

`urllib.request`模块：

作用：urllib.request可以模拟浏览器的一个请求发起的过程。

打开一个URL：
```
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
```
- url: 必填，写url地址。
- data: 可以以字节流编码格式（bytes()转化）向服务器发送数据。
- timeoutL: 访问超时时间。
- cafile, capath: cafile 为 CA 证书， capath 为 CA 证书的路径，使用 HTTPS 需要用到。
- cadefault: 已弃用。
- context: ssl.SSLContext类型，用来指定 SSL （安全套接层）设置。
在打开一个url后，通常使用open()或read()来获取网页的html代码，在调用decode(‘utf-8’)方法来将代码编码为utf-8的形式便于阅读。例：
```
response = urllib.request.urlopen('https://www.baidu.com') #urlopen方式打开网址
print(response.read().decode("utf-8")) #网页内容以utf-8格式打印
```
或者，readline()：读取一行内容；readlines()：读取全部内容，并返回一个列表。

在打开一个url后，若要判断一个网页是否能打开，可以用getcode()来获取网页状态码。若状态码是200则正常，404则网页不存在。
```
print(response.getcode()) #200
```

模拟浏览器头部信息

urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

url: url地址。
data: 发送到服务器的数据。data 参数如果要传必须传 bytes （字节流）类型的，如果是一个字典，可以先用 urllib.parse.urlencode() 编码。
headers: HTTP请求的头部信息，需要是字典格式。
origin_req_host: 请求的主机地址，IP或域名。
unverifiable: （不常用）用于设置网页是否需要验证。
method: 发起请求的方法，GET、POST、PUT、DELETE等。

例如：

    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53",
        "Accept - Encoding": "gzip, deflate, br",
        "Accept - Language": "zh - CN, zh;q = 0.9, en;q = 0.8, en - GB;q = 0.7, en - US;q = 0.6",
        "Referer": "https: // cn.bing.com /"
    }  # 保存头部信息
    request = urllib.request.Request(url,headers=headers) 
    response = urllib.request.urlopen(request) #urlopen方式打开网址
    html = response.read().decode("utf-8")

`urllib.error`模块:

作用：urllib.request的异常类，其中包含两个方法：URLError和HTTPError。URLError（基础异常类）适用于程序遇到问题时的报错，属性reason为异常原因；HTTPError（URLError的一个子类）适用于HTTP遇到问题时的报错，属性code为HTTP状态码，reason为引发异常的原因，headers 为导致 HTTPError 的特定 HTTP 请求的 HTTP 响应头。

例如：

    try:
        response = urllib.request.urlopen(request) #urlopen方式打开网址
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e,"reason"): #hasattr() 函数用于判断对象是否包含对应的属性
            print(e.reason) #返回错误原因

`urllib.parse`模块：

作用：解析url

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)

urlstring: 字符串的url地址。
scheme: 协议类型。
allow_fragments: 参数为 false，则无法识别片段标识符。相反，它们被解析为路径，参数或查询组件的一部分，并 fragment 在返回值中设置为空字符串。

例如：

url_analysis = urlparse("https://www.runoob.com/?s=python+%E6%95%99%E7%A8%8B")
print(url_analysis) 
#ParseResult(scheme='https', netloc='www.runoob.com', path='/', params='', query='s=python+%E6%95%99%E7%A8%8B', fragment='')
print(url_analysis.scheme) #https

可以看出解析url结果是一个元组，包含6个字符串：协议，位置，路径，参数，查询，判断；也可以单独查询想要的结果。

BBBboon

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python urllib库的使用全攻略

Python urllib库作用：用于操作网页url，并对网页内容进行抓取。urllib库分为以下几个模块：urllib.request 打开和读取urlurllib.error 包含urllib.request抛出的异常urllib.parse 解析urlurllib.robotparser 解析robot.txt文件urllib.request模块：作用：urllib.request可以模拟浏览器的一个请求发起的过程。打开一个URL：urllib.request.urlope
复制链接

扫一扫