Python爬虫初步
这里要介绍一下urllib2这个模块
作用:主要是用于打开url。
核心方法:
- urlopen(url[, data][, timeout])
- 打开一个url,该url参数可以是一个string也可以是一个 Request 对象(后有介绍)。
- data参数可以是一个指定的字符串,该字符串将会送往服务器。(date应该是在标准application/ x-WWW-form-urlencoded格式的缓冲,函数urllib.urlencode()将会执行一个映射或是二元组序列返回一个该格式的字符串)
- timeout指定连接尝试的时间
- urlopen返回一个类文件的对象,该对象有三个方法:
- geturl():返回这个资源的真实url,如果网站有重定向则有用。
- info():返回打开该网站的头文件信息
- getcode():返回HTTP连接状态码
- 如果打开失败会返回一个URLError
import urllib2
resp=urllib2.urlopen('http://www.baidu.com/')
print resp.geturl()
print resp.info()
print resp.getcode()
#结果:
http://www.baidu.com/
Date: Sun, 16 Nov 2014 06:25:25 GMT
Content-Type: text/html; charset=utf-8
Transfer-Encoding: chunked
Connection: Close
Vary: Accept-Encoding
Set-Cookie: BAIDUID=E9E8EBF8D18F7A2F362B473DF71EC228:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BAIDUPSID=E9E8EBF8D18F7A2F362B473DF71EC228; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BDSVRTM=0; path=/
Set-Cookie: BD_HOME=0; path=/
Set-Cookie: H_PS_PSSID=8266_1458_9593_7800_9584_9475_9499_9510_9769_10024_9757_9477_7798_9454_9978_9023; path=/; domain=.baidu.com
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Cache-Control: private
Cxy_all: baidu+89ed3fe869baaeddad6bcd025a131cac
Expires: Sun, 16 Nov