2.爬虫基础——urllib2模块

urllib2的使用

目录清单

  1. 入门程序了解爬虫采集数据步骤
  2. 底层操作Request对象
  3. 请求头设置之UserAgent用户代理
    1. 请求头设置
    2. 用户代理——UserAgent
    3. 自定义请求头消息
  4. 请求方式之GET/POST请求
    1. GET请求处理
    2. POST请求处理
  5. Handler处理器自定义开锁人opener
    1. 自定义HTTP OPENER
    2. 自定义PROXY OPENER
  6. 会话跟踪之cookie操作
    1. cookie基本操作
    2. cookie写入数据操作
    3. cookie读取数据操作
  7. 异常和错误处理
    1. 异常处理
    2. 错误处理
    3. HTTPS数字签名问题

1. 入门

首先,这里通过一个简单的程序认识什么是爬虫!

demo01.py

# -*- coding:utf-8 -*-
# 添加指定编码的注释,表示当前源代码支持中文操作

import urllib2
# 引入需要的模块

response = urllib2.urlopen("http://www.baidu.com")
# 通过urlopen()方法请求百度数据,获取到的响应数据保存在response

print(response.read())
# 打印展示获取到的数据

运行程序:python2 demo01.py

上述程序总分为两部分请求和相应

构造请求:request = urllib2.Request('http://www.baidu.com')

发送请求获得响应:response =urllib2.urlopen(request)

打印响应内容: print(response.read())

---------------------------------------------------------------------------------------------------------

上述只是简单的毫无伪装的爬虫程序只是用来理解urllib2的工作原理

由于网站多多少少都有些反扒措施所以 我们的爬虫程序不能在网上裸奔!

第一个反爬措施:身份验证检查是否浏览器发送的请求。

相应爬虫措施:请求头伪造,模仿浏览器发送请求;

程序如下:

# 添加注释,源代码支持中文
# -*- coding:utf-8 -*-

# 引入需要的模块
from urllib2 import Request, urlopen

# 定义访问的目标url地址
url = "http://www.taobao.com"

# 定义请求头信息
headers = {
    "User-agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",
    "info": "自定义消息",
}

# 构建请求对象
request = Request(url, headers=headers)

# 发送请求获得响应对象
response = urlopen(response)

# 打印展示信息
print(response.read())



  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值