urllib提供了较好的封装,可以很方便的读取http,ftp,file等协议数据,本篇只关注http。urllib的底层还是使用httplib模块,相比于httplib,urllib接口更加好用,功能更加强大。支持http代理,可从环境变量中获取代理信息,支持http basic auth,可自动处理302等。但也有不足,如不支持gzip等压缩编码,不支持摘要认证,NTML认证等。
urllib快速使用
urllib的urlopen方法很好用,代理使用如下:
import urllib
opener=urllib.urlopen('http://www.baidu.com/',proxies={'http':'http://root:root2@192.168.1.101:808'})
print opener.code
urlopen返回一个类文件对象,具有一些列方法,read(),readline(),readlines(),close()等,其中info()方法和readhers属性都是返回http.HTTPMessage实例。HTTPMessage是继承自mimetools.Message,具有读取状态码或邮件头这样格式的内容。
urllib还有一个比较好用的下载方法,urlretrieve(url, filename=None, reporthook=None, data=None)
该函数可指定回调函数reporthook(blocknum, bs, size),默认下载1024*8字节回调一次,也就是bs大小,blocknum是块数量,其实就是回调的次数,size是下载文件总大小,通过"Content-Length"获取。data是需要post的值,filename是下载文件名。返回一个(本地filename,HTTPMessage)元组
。
import urllib
def reporthook(bk,bs,total):
print bk*bs,'b'
filename,message=urllib.urlretrieve("http://ww.baidu.com/",None,reporthook)
print message.getheader('Content-Length')
返回结果:8192 b
16384 b
11394
你会看到大小不太一样,难免的,因为最后一次可能没有bs大小可读了,但回调还是调用了。
urlretrieve是基于URLopener.retrieve的,在看当作也遇到了一点疑惑,在获取“Content-Length"头信息时,代码如下:
fp = self.open(url, data)
headers &#