Python爬虫初步

最新推荐文章于 2021-06-05 18:18:41 发布

BingLau

最新推荐文章于 2021-06-05 18:18:41 发布

阅读量1.4k

点赞数

分类专栏： Python 文章标签： Python 爬虫

本文链接：https://blog.csdn.net/qingyunianer/article/details/43929097

版权

本文详细介绍了Python中的urllib2模块，包括Request对象、OpenerDirector对象、各种Handler类等核心组件，以及如何使用urllib2进行网页打开和数据获取。通过实例展示了如何利用urllib2处理HTTP请求，同时预告了正则表达式的相关内容。

摘要由CSDN通过智能技术生成

Python爬虫初步

这里要介绍一下urllib2这个模块

作用：主要是用于打开url。
核心方法：
- urlopen(url[, data][, timeout])
- 打开一个url，该url参数可以是一个string也可以是一个 Request 对象（后有介绍）。
- data参数可以是一个指定的字符串，该字符串将会送往服务器。（date应该是在标准application/ x-WWW-form-urlencoded格式的缓冲，函数urllib.urlencode()将会执行一个映射或是二元组序列返回一个该格式的字符串）
- timeout指定连接尝试的时间
- urlopen返回一个类文件的对象，该对象有三个方法：
- geturl()：返回这个资源的真实url，如果网站有重定向则有用。
- info()：返回打开该网站的头文件信息
- getcode()：返回HTTP连接状态码
- 如果打开失败会返回一个URLError

import urllib2

resp=urllib2.urlopen('http://www.baidu.com/')

print resp.geturl()
print resp.info()
print resp.getcode()

#结果：

http://www.baidu.com/
Date: Sun, 16 Nov 2014 06:25:25 GMT
Content-Type: text/html; charset=utf-8
Transfer-Encoding: chunked
Connection: Close
Vary: Accept-Encoding
Set-Cookie: BAIDUID=E9E8EBF8D18F7A2F362B473DF71EC228:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BAIDUPSID=E9E8EBF8D18F7A2F362B473DF71EC228; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com
Set-Cookie: BDSVRTM=0; path=/
Set-Cookie: BD_HOME=0; path=/
Set-Cookie: H_PS_PSSID=8266_1458_9593_7800_9584_9475_9499_9510_9769_10024_9757_9477_7798_9454_9978_9023; path=/; domain=.baidu.com
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Cache-Control: private
Cxy_all: baidu+89ed3fe869baaeddad6bcd025a131cac
Expires: Sun, 16 Nov