python爬虫开发之urllib模块详细使用方法与实例全解

最新推荐文章于 2023-07-12 09:57:17 发布

程序员arlly

最新推荐文章于 2023-07-12 09:57:17 发布

阅读量1.4k

点赞数 1

分类专栏： python爬虫文章标签： python java linux

本文链接：https://blog.csdn.net/haoxun12/article/details/105081380

版权

本文详细介绍了Python3.x中的urllib模块，包括urllib.request、urllib.parse、urllib.error等子模块的使用，涵盖了GET、POST请求、异常处理、HTTP认证、代理设置、Cookie管理等内容，并提供了多个实例演示，帮助读者深入理解urllib在爬虫开发中的应用。

摘要由CSDN通过智能技术生成

爬虫所需要的功能，基本上在urllib中都能找到，学习这个标准库，可以更加深入的理解后面更加便利的requests库。

首先

在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error

在Pytho2.x中使用import urllib——-对应的，在Python3.x中会使用import urllib.request，urllib.error，urllib.parse

在Pytho2.x中使用import urlparse——-对应的，在Python3.x中会使用import urllib.parse

在Pytho2.x中使用import urlopen——-对应的，在Python3.x中会使用import urllib.request.urlopen

在Pytho2.x中使用import urlencode——-对应的，在Python3.x中会使用import urllib.parse.urlencode

在Pytho2.x中使用import urllib.quote——-对应的，在Python3.x中会使用import urllib.request.quote

在Pytho2.x中使用cookielib.CookieJar——-对应的，在Python3.x中会使用http.CookieJar

在Pytho2.x中使用urllib2.Request——-对应的，在Python3.x中会使用urllib.request.Request

urllib是Python自带的标准库，无需安装，直接可以用。

urllib模块提供了如下功能：

网页请求(urllib.request)
URL解析(urllib.parse)
代理和cookie设置
异常处理(urllib.error)
robots.txt解析模块(urllib.robotparser)
urllib包中urllib.request模块
1、urllib.request.urlopen
urlopen一般常用的有三个参数，它的参数如下：

r = urllib.requeset.urlopen(url,data,timeout)

url：链接格式：协议://主机名:[端口]/路径

data：附加参数必须是字节流编码格式的内容(bytes类型)，可通过bytes()函数转化，如果要传递这个参数，请求方式就不再是GET方式请求，而是POST方式

timeout: 超时单位为秒
get请求

import urllib
r = urllib.urlopen('//www.jb51.net/')
datatLine = r.readline() #读取html页面的第一行
data=file.read() #读取全部
f=open("./1.html","wb") # 网页保存在本地
f.write(data)
f.close()

rlopen返回对象提供方法：

read() , readline() ,readlines() , fileno() , close() ：这些方法的使用方式与文件对象完全一样 info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的头信息 getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到 geturl()：返回请求的url

urllib.quote(url)和urllib.quote_plus(url)，对关键字进行编码可使得urlopen能够识别

POST请求

import urllib.request
import urllib.parse
url = 'https://passport.jb51.net/user/signin?'
post = {
   
'username': 'xxx',
'password': 'xxxx'
}
postdata = urllib.parse.urlencode(post).encode('utf-8')
req = urllib.request.Request(url, postdata)
r = urllib.request.urlopen(req)

我们在进行注册、登录等操作时，会通过POST表单传递信息

这时，我们需要分析页面结构，构建表单数据post，使用urlencode()进行编码处理，返回字符串，再指定’utf-8’的编码格式，这是因为POSTdata只能是bytes或者file object。最后通过Request()对象传递postdata，使用urlopen()发送请求。

2、urllib.request.Request
urlopen()方法可以实现最基本请求的发起，但这几个简单的参数并不足以构建一个完整的请求，如果请求中需要加入headers（请求头）等信息模拟浏览器，我们就可以利用更强大的Request类来构建一个请求。

import urllib.request
import urllib.parse
url = 'https://passport.jb51.net/user/signin?'
post = {
   
'username': 'xxx',
'password': 'xxxx'
}
postdata = urllib.parse.urlencode(post).encode('utf-8')
req = urllib.request.Request(url, postdata)
r = urllib.request.urlopen(req)

3、urllib.request.BaseHandler
在上面的过程中，我们虽然可以构造Request ，但是一些更高级的操作，比如 Cookies处理，代理该怎样来设置？

接下来就需要更强大的工具 Handler 登场了基本的urlopen()函数不支持验证、cookie、代理或其他HTTP高级功能。要支持这些功能，必须使用build_opener()函数来创建自己的自定义opener对象。

首先介绍下 urllib.request.BaseHandler ，它是所有其他 Handler 的父类，它提供了最基本的 Handler 的方法。

HTTPDefaultErrorHandler 用于处理HTTP响应错误，错误都会抛出 HTTPError 类型的异常。

HTTPRedirectHandler 用于处理重定向

HTTPCookieProcessor 用于处理 Cookie 。

ProxyHandler 用于设置代理，默认代理为空。

HTTPPasswordMgr用于管理密码，它维护了用户名密码的表。

HTTPBasicAuthHandler 用于管理认证，如果一个链接打开时需要认证，那么可以用它来解决认证问题。
代理服务器设置

def use_proxy(proxy_addr,url):
import urllib.request
#构建代理
proxy=urllib.request.ProxyHandler({
   'http':proxy_addr})
# 构建opener对象
opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
# 安装到全局
# urllib.request.install_opener(opener)
# data=urllib.request.urlopen(url).read().decode('utf8') 以全局方式打开
data=opener.open(url) # 直接用句柄方式打开
return data
proxy_addr='61.163.39.70:9999'
data=use_proxy(proxy_addr,'//www.jb51.net')
print(len(data))
## 异常处理以及日输出

opener通常是build_opener()创建的opener对象。

install_opener(opener) 安装opener作为urlopen()使用的全局URL opener

cookie的使用
获取Cookie保存到变量

import http.cookiejar, urllib.request
#使用http.cookiejar.CookieJar()创建CookieJar对象
cook

最低0.47元/天解锁文章

程序员arlly

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录