[Python]网络爬虫（四）：Opener与Handler的介绍和实例应用

最新推荐文章于 2021-03-02 00:31:22 发布

原创

最新推荐文章于 2021-03-02 00:31:22 发布 · 10w+ 阅读

61 ·

CC 4.0 BY-SA版权

本文介绍了Python urllib2模块中Openers和Handlers的概念及其使用，包括geturl()和info()方法的解释，以及HTTPBasicAuthHandler在基本认证中的应用。通过示例展示了如何创建和使用自定义Opener处理HTTP基本验证。

更好的学习网址：http://www.voidspace.org.uk/python/articles/urllib2.shtml#openers-and-handlers

以下为个人学习笔记。

在开始后面的内容之前，先来解释一下urllib2中的两个个方法：info and geturl

urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()

1.geturl()：

这个返回获取的真实的URL，这个很有用，因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同。

以人人中的一个超级链接为例,

我们建一个urllib2_test10.py来比较一下原始URL和重定向的链接：

from urllib2 import Request, urlopen, URLError, HTTPError


old_url = 'http://rrurl.cn/b1UZuP'
req = Request(old_url)
response = urlopen(req)  
print 'Old url :' + old_url
print 'Real url :' + response.geturl()

运行之后可以看到真正的链接指向的网址：

最低0.47元/天解锁文章

8 条评论

小白中的小白egg 2020.03.31
所以如果我们要传用户名和密码，就不能直接post带data？？？？？opener没有其他用途吗？这样举例子很难让我理解

a12345zxcvb 2018.04.25
推荐直接看外文，翻译很烂

abc3226019 2017.09.13
其实可以把urlopen()方法比作一间工厂,Opener就是工厂的大门,Handler就是工厂里的苦力(的确负责了绝大部分工作). 如果URLopen()能满足需求的话自然皆大欢喜,但是一些需要更多参数的网站比如,要你提供账号密码的,你就可以根据需求定制出自己的"urlopen()",如例子中的opener.open() 例子中绕来绕去的主要是定制Handler