Urllib2库丨Python爬虫基础入门系列(12)

本文介绍了Python2.7中的Urllib2库,包括其学习目的、urlopen函数的使用,详细讲解了GET和POST请求方式,并通过实例展示了如何添加Header信息。此外,还探讨了如何抓取招聘信息并解析URL参数。文章最后总结了Content-Length、X-Requested-With和Content-Type等关键概念。
摘要由CSDN通过智能技术生成

提示:文末有福利!最新Python爬虫资料/学习指南>>戳我直达


前言

Urllib2库
urllib2是python2.7自带的模块(不需要下载),它支持多种网络协议,比如 FTP、HTTP、HTTPS等
urllib2在python3.x中被改为urllib.request


话不多说,开始学习
在这里插入图片描述

Urllib2库

学习目的

利用urllib2提供了一个接口 urlopen函数

urllib2 官方文档

https://docs.python.org/2/library/urllib2.html

urlopen

urlopen(url, data, timeout,....)

(1)第一个参数url即为URL,第一个参数URL是必须要传送的

(2)第二个参数data是访问URL时要传送的数据,data默认为空None

(3)第三个timeout是设置超时时间,timeout默认为 60s(socket._GLOBAL_DEFAULT_TIMEOUT)

GET请求方式

以抓取 http://www.itcast.cn为例

import urllib2
response = urllib2.urlopen('http://www.itcast.cn/')
data = response.read()
print data
print response.code

保存成 demo.py,进入该文件的目录,执行如下命令查看运行结果,感受一下。

python demo.py

Urllib2库的基本使用 - 图1

利用urllib2.Request类,添加Header信息

利用urllib2.Request方法,可以用来构造一个Http请求消息

help(urllib2.Request)

Urllib2库的基本使用 - 图2

正则:headers 转dict

^(.*):\s(.*)$
"\1":"\2",
# -*- coding: utf-8 -*-
import urllib2
get_headers={
   
      'Host': 'www.itcast.cn',
      'Connecti
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值