Python之美[从菜鸟到高手]--urllib源码分析

最新推荐文章于 2024-08-06 09:33:10 发布

yueguanghaidao

最新推荐文章于 2024-08-06 09:33:10 发布

阅读量1.8w

点赞数 2

分类专栏： python Python之美[从菜鸟到高手] 文章标签： python 源码 urllib

本文链接：https://blog.csdn.net/yueguanghaidao/article/details/11994229

版权

本文详细介绍了Python的urllib库，重点分析了其http功能，包括urlopen的便捷使用、源码总体流程、HTTP基本认证（basic auth）和代理设置。同时，列举了urllib提供的实用函数，如url编码和查询字符串处理。

摘要由CSDN通过智能技术生成

urllib提供了较好的封装，可以很方便的读取http，ftp，file等协议数据，本篇只关注http。urllib的底层还是使用httplib模块，相比于httplib，urllib接口更加好用，功能更加强大。支持http代理，可从环境变量中获取代理信息，支持http basic auth，可自动处理302等。但也有不足，如不支持gzip等压缩编码，不支持摘要认证，NTML认证等。

urllib快速使用

urllib的urlopen方法很好用，代理使用如下：

import urllib
opener=urllib.urlopen('http://www.baidu.com/',proxies={'http':'http://root:root2@192.168.1.101:808'})
print opener.code

urlopen返回一个类文件对象，具有一些列方法，read(),readline(),readlines(),close()等，其中info()方法和readhers属性都是返回http.HTTPMessage实例。HTTPMessage是继承自mimetools.Message，具有读取状态码或邮件头这样格式的内容。

注意：http://www.baidu.com/需要在域名后加"/"，不然会报"IOError: ('http protocol error', 0, 'got a bad status line', None)”，且代理站点需要添加http前缀。

urllib还有一个比较好用的下载方法，urlretrieve(url, filename=None, reporthook=None, data=None)

该函数可指定回调函数reporthook(blocknum, bs, size)，默认下载1024*8字节回调一次，也就是bs大小，blocknum是块数量，其实就是回调的次数，size是下载文件总大小，通过"Content-Length"获取。data是需要post的值，filename是下载文件名。返回一个（本地filename，HTTPMessage)元组。

import urllib
def reporthook(bk,bs,total):
    print bk*bs,'b'
filename,message=urllib.urlretrieve("http://ww.baidu.com/",None,reporthook)
print message.getheader('Content-Length')

返回结果：
8192 b
16384 b
11394

你会看到大小不太一样，难免的，因为最后一次可能没有bs大小可读了，但回调还是调用了。

urlretrieve是基于URLopener.retrieve的，在看当作也遇到了一点疑惑，在获取“Content-Length"头信息时，代码如下：