urllib2对 url方式的资源处理方法灰常丰富~基本通过handler的组合来实现各种功能~同样实现根据status code自动redirect和cookies的分析和获取(根据Http状态码redirect在urllib.FancyUrlOpener中也有实现~)
最step代码如下:
cookies中其他内容参见 cookielib.CookieJar
这个cookie在整个opener生存周期内,一直存在,而且自动分析有效期、域、路径并维护,非常适合模拟登录和抓取,嘿嘿~
------------
标题写了redirect的……代码里没体现~
在第5行,创建Opener时, ul2.HTTPRedirectHandler是默认被加上的handler之一……
同为默认handler的还有:
ProxyHandler
UnknownHandler
HTTPHandler
HTTPDefaultErrorHandler
HTTPRedirectHandler
FTPHandler
FileHandler
HTTPSHandler
HTTPErrorProcessor
等诸位~
最step代码如下:
- import urllib2 as ul2, cookielib as cl, urllib as ul
- cj = cl.CookieJar()
- opener = ul2.build_opener(ul2.HTTPCookieProcessor(cj)) # 这里可以添加更多的handlers
- # ul2.install_opener(opener) #可以注册为默认的opener,这样的话,在后面发送请求时,就可以用 urlopen / urlretrieve 等快捷方法
- #创建并发送一个请求
- req_sohu = urllib2.Request('http://www.sohu.com') # 用Request对象可以发送POST请求,并提供更多参数,如果是Get请求又不需要太复杂的设置,可以直接用
- res_sohu = opener.open(req_sohu)
- content_sohu = res_sohu.read() # 读取到了所有的response内容
- #相应的http 请求和响应头分别在 req_sohu和res_sohu中,可以直接访问并获取
- #获取cookies,这个……相当麻烦……不知道有没有简便方法……
- cookies = filter(lambda h:isinstance(h, ul2.HTTPCookieProcessor), opener.handlers)[0].cookiejar
cookies中其他内容参见 cookielib.CookieJar
这个cookie在整个opener生存周期内,一直存在,而且自动分析有效期、域、路径并维护,非常适合模拟登录和抓取,嘿嘿~
------------
标题写了redirect的……代码里没体现~
在第5行,创建Opener时, ul2.HTTPRedirectHandler是默认被加上的handler之一……
同为默认handler的还有:
ProxyHandler
UnknownHandler
HTTPHandler
HTTPDefaultErrorHandler
HTTPRedirectHandler
FTPHandler
FileHandler
HTTPSHandler
HTTPErrorProcessor
等诸位~