urllib2 对 redirect / cookie 的处理方法

最新推荐文章于 2022-09-05 20:36:37 发布

「已注销」

最新推荐文章于 2022-09-05 20:36:37 发布

阅读量2.9k

点赞数

分类专栏：可爱的Python 文章标签： redirect cookies filter url

本文链接：https://blog.csdn.net/slawdan/article/details/3158847

版权

可爱的Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

urllib2对 url方式的资源处理方法灰常丰富~基本通过handler的组合来实现各种功能~同样实现根据status code自动redirect和cookies的分析和获取（根据Http状态码redirect在urllib.FancyUrlOpener中也有实现~）

最step代码如下：

 
 import urllib2 as ul2, cookielib as cl, urllib as ul

cj = cl.CookieJar()

opener = ul2.build_opener(ul2.HTTPCookieProcessor(cj)) # 这里可以添加更多的handlers

# ul2.install_opener(opener) #可以注册为默认的opener，这样的话，在后面发送请求时，就可以用 urlopen / urlretrieve 等快捷方法

#创建并发送一个请求
req_sohu = urllib2.Request('http://www.sohu.com') # 用Request对象可以发送POST请求，并提供更多参数，如果是Get请求又不需要太复杂的设置，可以直接用

res_sohu = opener.open(req_sohu)

content_sohu = res_sohu.read() # 读取到了所有的response内容

#相应的http 请求和响应头分别在 req_sohu和res_sohu中，可以直接访问并获取

#获取cookies，这个……相当麻烦……不知道有没有简便方法……

cookies = filter(lambda h:isinstance(h, ul2.HTTPCookieProcessor), opener.handlers)[0].cookiejar

cookies中其他内容参见 cookielib.CookieJar

这个cookie在整个opener生存周期内，一直存在，而且自动分析有效期、域、路径并维护，非常适合模拟登录和抓取，嘿嘿~

------------

标题写了redirect的……代码里没体现~

在第5行，创建Opener时， ul2.HTTPRedirectHandler是默认被加上的handler之一……
同为默认handler的还有：

ProxyHandler
UnknownHandler
HTTPHandler
HTTPDefaultErrorHandler
HTTPRedirectHandler
FTPHandler
FileHandler
HTTPSHandler
HTTPErrorProcessor

等诸位~

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
urllib2 对 redirect / cookie 的处理方法

urllib2对 url方式的资源处理方法灰常丰富~基本通过handler的组合来实现各种功能~同样实现根据status code自动redirect和cookies的分析和获取（根据Http状态码redirect在urllib.FancyUrlOpener中也有实现~）最step代码如下：import urllib2 as ul2, cookielib as cl, urllib as ulcj
复制链接

扫一扫

专栏目录