Python之美[从菜鸟到高手]--urllib源码分析

本文详细介绍了Python的urllib库,重点分析了其http功能,包括urlopen的便捷使用、源码总体流程、HTTP基本认证(basic auth)和代理设置。同时,列举了urllib提供的实用函数,如url编码和查询字符串处理。
摘要由CSDN通过智能技术生成

    urllib提供了较好的封装,可以很方便的读取http,ftp,file等协议数据,本篇只关注http。urllib的底层还是使用httplib模块,相比于httplib,urllib接口更加好用,功能更加强大。支持http代理,可从环境变量中获取代理信息,支持http basic auth,可自动处理302等。但也有不足,如不支持gzip等压缩编码,不支持摘要认证,NTML认证等。

urllib快速使用

    urllib的urlopen方法很好用,代理使用如下:

import urllib
opener=urllib.urlopen('http://www.baidu.com/',proxies={'http':'http://root:root2@192.168.1.101:808'})
print opener.code
urlopen返回一个类文件对象,具有一些列方法,read(),readline(),readlines(),close()等,其中info()方法和readhers属性都是返回http.HTTPMessage实例。HTTPMessage是继承自mimetools.Message,具有读取状态码或邮件头这样格式的内容。


注意:http://www.baidu.com/需要在域名后加"/",不然会报"IOError: ('http protocol error', 0, 'got a bad status line', None)”,且代理站点需要添加http前缀。

urllib还有一个比较好用的下载方法,urlretrieve(url, filename=None, reporthook=None, data=None)
该函数可指定回调函数reporthook(blocknum, bs, size),默认下载1024*8字节回调一次,也就是bs大小,blocknum是块数量,其实就是回调的次数,size是下载文件总大小,通过"Content-Length"获取。data是需要post的值,filename是下载文件名。返回一个(本地filename,HTTPMessage)元组
import urllib
def reporthook(bk,bs,total):
    print bk*bs,'b'
filename,message=urllib.urlretrieve("http://ww.baidu.com/",None,reporthook)
print message.getheader('Content-Length')
返回结果:
8192 b
16384 b
11394
你会看到大小不太一样,难免的,因为最后一次可能没有bs大小可读了,但回调还是调用了。

urlretrieve是基于URLopener.retrieve的,在看当作也遇到了一点疑惑,在获取“Content-Length"头信息时,代码如下:
fp = self.open(url, data)
headers &#
目录 第1章 Python 处理 cassandra 升级后的回滚脚本 第 2 章 多套方案来提高 python web 框架的并发处理能力 第 3 章 python 写报警程序中的声音实现 winsound 第 4 章 一个脚本讲述 python 语言的基础规范,适合初学者 第 5 章 python 计算文件的行数和读取某一行内容的实现方法 第 6 章 python 中用 string.maketrans 和 translate 巧妙替换字符串 第 7 章 python linecache 模块读取文件用法详解 第 8 章 python 调用 zabbix 的 api 接口添加主机、查询组、主机、模板 第 9 章 python+Django 实现 Nagios 自动化添加监控项目 第 10 章 通过 python 和 websocket 构建实时通信系统[扩展 saltstack 监控] 第 11 章 关于 B+tree (附 python 模拟代码) 第 12 章 Python 编写的 socket 服务器和客户端 第 13 章 python 之 MySQLdb 库的使用 第 14 章 python 监控文件或目录变化 第 15 章 Mongodb 千万级数据在 python 下的综合压力测试及应用探讨 第 16 章 通过 memcached 实现领号排队功能及 python 队列实例. 第 17 章 python 之利用 PIL 库实现页面的图片验证码及缩略图 第 18 章 如何将 Mac OS X10.9 下的 Python2.7 升级到最新的 Python3.3 第 19 章 使用 python 构建基于 hadoop 的 mapreduce 日志分析平台 第 20 章 报警监控平台扩展功能 url 回调的设计及应用 [python 语言] 第 21 章 服务端 socket 开发之多线程和 gevent 框架并发测试[python 语言] 第 22 章 利用 pypy 提高 python 脚本的执行速度及测试性能 第 23 章 python 实现 select 和 epoll 模型 socket 网络编程 第 24 章 对 Python-memcache 分布式散列和调用的实现 第 25 章 Parallel Python 实现程序的并行多 cpu 多核利用【pp 模块】 第 26 章 关于 python 调用 zabbix api 接口的自动化实例 [结合 saltstack] 第 27 章 Python 批量更新 nginx 配置文件 第 28 章 Python 通过 amqp 消息队列协议中的 Qpid 实现数据通信 第 29 章 python simplejson 模块浅谈 第 30 章 python Howto 之 logging 模块 第 31 章 Python FAQ3-python 中 的原始(raw)字符串
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值