Python爬虫初步

Python爬虫初步


这里要介绍一下urllib2这个模块

作用:主要是用于打开url。
核心方法:
- urlopen(url[, data][, timeout])
- 打开一个url,该url参数可以是一个string也可以是一个 Request 对象(后有介绍)。
- data参数可以是一个指定的字符串,该字符串将会送往服务器。(date应该是在标准application/ x-WWW-form-urlencoded格式的缓冲,函数urllib.urlencode()将会执行一个映射或是二元组序列返回一个该格式的字符串)
- timeout指定连接尝试的时间
- urlopen返回一个类文件的对象,该对象有三个方法:
- geturl():返回这个资源的真实url,如果网站有重定向则有用。
- info():返回打开该网站的头文件信息
- getcode():返回HTTP连接状态码
- 如果打开失败会返回一个URLError

import urllib2

resp=urllib2.urlopen('http://www.baidu.com/')

print resp.geturl()
print resp.info()
print resp.getcode()

#结果:

http://www.baidu.com/
Date: Sun, 16 Nov 2014 06:25:25 GMT
Content-Type: text/html; charset=utf-8
Transfer-Encoding: chunked
Connection: Close
Vary: Accept-Encoding
Set-Cookie: BAIDUID=E9E8EBF8D18F7A2F362B473DF71EC228:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BAIDUPSID=E9E8EBF8D18F7A2F362B473DF71EC228; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BDSVRTM=0; path=/
Set-Cookie: BD_HOME=0; path=/
Set-Cookie: H_PS_PSSID=8266_1458_9593_7800_9584_9475_9499_9510_9769_10024_9757_9477_7798_9454_9978_9023; path=/; domain=.baidu.com
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Cache-Control: private
Cxy_all: baidu+89ed3fe869baaeddad6bcd025a131cac
Expires: Sun, 16 Nov 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值