用python越久,感觉python的封装的模块很多,也很实用。
最近尝试用python脚本去获取url页面信息,网上可以查到的基本都是用urllib / urllib2 模块,
只是简单对比了两种模块,感觉urllib2的功能更全面,实用性更强,决定用urllib2来实现,
urllib2是python的一个获取url的组件,以urlopen函数的形式提供了一套接口,具有利用不同协议获取url的能力
若简单的访问网页,例如:
import urllib2
response = urllib2.urlopen('http://www.baidu.com')
html = response.read()
HTTP是基于请求和应答机制的,即客户端提出请求,服务端提供应答。urllib2用一个Request对象来映射所发出的HTTP请求
例如根据请求的url地址创建一个Request对象,通过调用urlopen并传入Request对象, 例如:
import urllib2
req = urllib2.Request('http://www.baidu.com')
response = urllib2.urlopen(req)
html = response.read()
在HTTP请求时,允许做额外的两件事,首先是发送data表单数据,其次是能够传送额外的关于数据或发送本身的信息到服务器,此数据作为HTTP的‘headers’来发送
对于表单数据,在HTTP中,经常使用PO