提示:文末有福利!最新Python爬虫资料/学习指南>>戳我直达
前言
Urllib2库
urllib2是python2.7自带的模块(不需要下载),它支持多种网络协议,比如 FTP、HTTP、HTTPS等
urllib2在python3.x中被改为urllib.request
话不多说,开始学习
Urllib2库
学习目的
利用urllib2提供了一个接口 urlopen函数
urllib2 官方文档
https://docs.python.org/2/library/urllib2.html
urlopen
urlopen(url, data, timeout,....)
(1)第一个参数url即为URL,第一个参数URL是必须要传送的
(2)第二个参数data是访问URL时要传送的数据,data默认为空None
(3)第三个timeout是设置超时时间,timeout默认为 60s(socket._GLOBAL_DEFAULT_TIMEOUT)
GET请求方式
以抓取 http://www.itcast.cn为例
import urllib2
response = urllib2.urlopen('http://www.itcast.cn/')
data = response.read()
print data
print response.code
保存成 demo.py,进入该文件的目录,执行如下命令查看运行结果,感受一下。
python demo.py
利用urllib2.Request类,添加Header信息
利用urllib2.Request方法,可以用来构造一个Http请求消息
help(urllib2.Request)
正则:headers 转dict
^(.*):\s(.*)$
"\1":"\2",
# -*- coding: utf-8 -*-
import urllib2
get_headers={
'Host': 'www.itcast.cn',
'Connecti