[Python]网络爬虫（四）：Opener与Handler

最新推荐文章于 2021-02-21 16:40:01 发布

翻滚吧挨踢男

最新推荐文章于 2021-02-21 16:40:01 发布

阅读量7.4k

点赞数 1

分类专栏： Python 文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/a359680405/article/details/44747101

版权

本文介绍了Python的urllib2库中关于Opener和Handler的使用，包括opener的概念和使用方法，如install_opener、HTTPBasicAuthHandler、HTTPCookieProcessor和ProxyHandler。同时，讲解了Handler如何处理URL，如HTTP基本验证（Basic Authentication）以及创建自定义Handler处理Cookie和代理。

摘要由CSDN通过智能技术生成

在开始后面的内容之前，先来解释一下urllib2中的两个个方法：info and geturl

urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()

1.geturl()：

geturl()返回获取的真实的URL，这个很有用，因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同。

以人人中的一个超级链接为例,

我们建一个urllib2_test10.py来比较一下原始URL和重定向的链接：

[python] view plaincopy 
   
 from urllib2 import Request, urlopen, URLError, HTTPError  
   
   
 old_url = 'http://rrurl.cn/b1UZuP'  
 req = Request(old_url)  
 response = urlopen(req)    
 print 'Old url :' + old_url