urllib2 对 redirect / cookie 的处理方法

urllib2对 url方式的资源处理方法灰常丰富~基本通过handler的组合来实现各种功能~同样实现根据status code自动redirect和cookies的分析和获取(根据Http状态码redirect在urllib.FancyUrlOpener中也有实现~)

最step代码如下:

  1. import urllib2 as ul2, cookielib as cl, urllib as ul

  2. cj = cl.CookieJar()

  3. opener = ul2.build_opener(ul2.HTTPCookieProcessor(cj)) # 这里可以添加更多的handlers

  4. # ul2.install_opener(opener) #可以注册为默认的opener,这样的话,在后面发送请求时,就可以用 urlopen / urlretrieve 等快捷方法

  5. #创建并发送一个请求
  6. req_sohu = urllib2.Request('http://www.sohu.com'# 用Request对象可以发送POST请求,并提供更多参数,如果是Get请求又不需要太复杂的设置,可以直接用

  7. res_sohu = opener.open(req_sohu)

  8. content_sohu = res_sohu.read() # 读取到了所有的response内容

  9. #相应的http 请求和响应头分别在 req_sohu和res_sohu中,可以直接访问并获取

  10. #获取cookies,这个……相当麻烦……不知道有没有简便方法……

  11. cookies = filter(lambda h:isinstance(h, ul2.HTTPCookieProcessor), opener.handlers)[0].cookiejar


cookies中其他内容参见 cookielib.CookieJar

这个cookie在整个opener生存周期内,一直存在,而且自动分析有效期、域、路径并维护,非常适合模拟登录和抓取,嘿嘿~

------------

标题写了redirect的……代码里没体现~

在第5行,创建Opener时, ul2.HTTPRedirectHandler是默认被加上的handler之一……
同为默认handler的还有:

ProxyHandler
UnknownHandler
HTTPHandler
HTTPDefaultErrorHandler
HTTPRedirectHandler
FTPHandler
FileHandler
HTTPSHandler
HTTPErrorProcessor

等诸位~


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值