Python2中的urllib、urllib2与Python3中的urllib以及第三方模块requests变化分析

最新推荐文章于 2023-10-20 09:12:18 发布

ablish

最新推荐文章于 2023-10-20 09:12:18 发布

阅读量1.5k

点赞数 1

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/qq_34327480/article/details/79161794

版权

python 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

由与python3对python2的urllib和urllib2做了合并，对于初入爬虫世界的小编我来说，还真有点蒙圈。在查阅资料后，在这里做了下urllib库在python2与python3中的区别做下总结。

首先，说明下大体的变化，在python2中，有urllib库和urllib2库。在python3中，urllib2合并到urllib库中,我们爬取网页的时候，经常用到这个库。（urllib是python提供的一个用于操作url的模块）

下面是python2与python3中常用的关于urllib库的变化：

在python2中，urllib和urllib2都是接受URL请求的相关模块，但是提供了不同的功能。两个最显著的不同如下：

1、urllib2可以接受一个Request类的实例来设置URL请求的headers

2、urllib仅可以接受URL。这意味着，你不可以伪装你的User Agent字符串等。

urllib 有urlencode,urllib2没有，这也是为什么总是urllib，urllib2常会一起使用的原因

req = urllib2.Request( 
        url=url,  
        data=postdata,  
        headers=headers  
)  
result = urllib2.urlopen(req)

在python3中，随着urllib2合入urllib，一些常用的方法也发生了变化：

1.在python2中使用import urlparse————对应的，在python3中会使用import urllib.parse

2.在python2中使用urllib2.urlopen————对应的，在python3中会使用urllib.request.urlopen

3.在python2中使用urllib2.Request————对应的，在python3中会使用urllib.request.Request

4.在python2中使用urllib.quote————对应的，在python3中会使用urllib.request.quote

5.在python2中使用urllib.urlencode————对应的，在python3中会使用urllib.parse.urlencode

6.在python2中使用cookielib.CookieJar————对应的，在python3中会使用http.CookieJar

7.异常处理：在python2中使用urllib2.URLError,urllib2.HTTPError————对应的，在python3中会使用urllib.error.URLError,urllib.error.HTTPError

进一步了解urllib2,参见中文版翻译文档：http://blog.csdn.net/u014343243/article/details/49308043

Python第三方库requests

requests 使用的是 urllib3，继承了urllib2的所有特性。requests有很大功能特性：

支持HTTP连接保持和连接池；支持使用cookie保持会话；支持文件上传；支持自动确定响应内容的编码；支持国际化的 URL 和 POST 数据自动编码。requests不是python自带的库，需要另外安装（pip安装就行了）

附上一个例子：

import requests

r = requests.get(url='http://www.baidu.com')    # 最基本的GET请求
print(r.status_code)    # 获取返回状态
#带参数的GET请求，http://dict.baidu.com/s?wd=python
r = requests.get(url='http://dict.baidu.com/s', params={'wd':'python'})   
print(r.url)
print(r.text)   #打印解码后的返回数据

除了get 请求外，还可以POST请求，PUT请求，DELETE请求，HEAD请求，OPTIONS请求对于WEB系统除了get请求外，还可以POST请求，PUT请求，DELETE请求，HEAD请求，OPTIONS请求一般只支持 GET 和 POST，有一些还支持 HEAD 方法
如想进一步了解requests, 参见官方指南文档： http://docs.python-requests.org/en/latest/user/quickstart.html