urllib2库的基本使用(一)

最新推荐文章于 2023-06-25 14:12:46 发布

Wyxtnbp

最新推荐文章于 2023-06-25 14:12:46 发布

阅读量1.1k

点赞数 2

分类专栏：曲良同学文章标签： Linux urllib2库

曲良同学专栏收录该内容

30 篇文章 0 订阅

订阅专栏

urllib2库的基本使用(一)

Published On October 23, 2017

前言

学习python的一个重要的应用就是在互联网上爬取数据， python有众多性能卓越使用方便的库可以来完成这个任务，urllib2就是其中一个。
urllib2是python2.7 自带的一个库，不需要进行额外的安装，值得一提的是，urllib2在python3.X版本中，被改为urllib.request。
python中还有一个很重要的库，urllib，但是要注意，urllib2并没有直接替代urllib。虽然urllib2提供了比urllib更丰富的功能，但是urllib2中没有urllib.urlencode函数。所以二者经常一起配合使用，至于为什么，我们会在后面进行介绍。

下面我们开始介绍以下urllib2库的使用。注：代码编写平台为Windows+PyCharm

urlopen

urlopen 的作用就是模拟浏览器访问一个url。我们知道，在浏览器地址栏输入url，敲回车之后，浏览器就会显示页面。url就是模拟了这个操作。来看一段代码。

 
  #! python2
# -*- coding:utf-8 -*-

import urllib2

# 向指定的url发送请求，并返回服务器的响应对象
response = urllib2.urlopen("http://www.baidu.com/")

# 调用对象方法，获取实体内容
html = response.read()

print html

运行这段代码。
从控制台输出的内容我们可以看到，这就是百度首页的所有内容。就这样简单，我们下载了一个html页面。
如果我们在游览器上直接右键，选择查看网页源代码，那么看到的会是同样的结果。
当然，也可以在本地新建一个html文本文档，将控制台输出的内容复制到该文本中，然后在浏览器中打开，也是同样的效果。

Request

如果没有详细的接触过开发的话，很少有人知道，当我们输入URL敲下回车的一瞬间到底发生了什么。如果要详细解释的话，免不了长篇大论，我们将其总结为两步，第一步，发起Request请求到服务器，第二步，接受服务器的响应response。我们可以在浏览器的调试模式中很清楚地看到这两个步骤。
在urlopen小节的例子中，urlopen只是打开了一个url，并没有向url传递任何参数，但是我们知道，互联网访问时，需要传递很多的参数的，那么在urllib2中该如何传递呢？我先来看下面这样一段代码。

 
#! python2
# -*- coding:utf-8 -*-

import urllib2

# url作为参数，构造并返回了一个Request对象
request = urllib2.Request("http://www.baidu.com/")

#将request对象作为urlopen的参数传入，接收服务器的响应，返回response对象
response = urllib2.urlopen(request)

# 调用对象方法，获取实体内容
html = response.read()

print html

通过控制台输出的内容，不难发现，这次输出的内容与urlopen的例子输出的结果是一致的。既然结果是一样，但是我们还是根据Request对象来访问，到底有什么好处呢！那是因为，Request不仅能够访问url，同时还能够传递两个基本参数

data（默认空）：是伴随 url 提交的数据（比如要post的数据），同时 HTTP 请求将从”GET”方式改为 “POST”方式。如果没有制定data，则请求方式默认给”GET”。关于”GET”方式和”POST”方式的形式与区别，我们会在后面进行详细的介绍。
headers（默认空）：这是一个字典类型的参数，包含了需要发送的HTTP报头的键值对。

User-Agent

我们首先来看下面这样两张图，观察一下有什么区别。注：抓包工具为Fiddler 正常访问百度的Request Headers

正常访问百度

使用urlopen访问百度的Request Headers

urlopen访问百度

从上面两图看来，两个图中都包含的字段，有一个比较明显的区别就是”User-Agent”差别比较大。而且使用urlopen访问百度的”User-Agent”直接就是”Python-urllib/2.7”。 “User-Agent”，是标识浏览器身份的一个标志。也就是说，我们使用不同的浏览器去访问互联网资源的时候，那些web服务是可以轻松的知道，我们的访问方式的。但是如果我们直接使用”Python-urllib/2.7”作为请求头去访问互联网资源，那岂不是在告诉别人，我就是在用python爬取你们的网站！所以在实际的使用中，我们要伪装成真正的浏览器去做这样的操作。
关于User-Agent，有很多的种类，纷繁复杂，不仅可以模拟浏览器，还可以模拟移动端，可以参考如下地址：User-Agent集合

 
  #! python2
# -*- coding:utf-8 -*-

import urllib2

url = "http://www.baidu.com/"

ua_header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36"}
# url和ua_header，作为请求参数，构造返回了Request
request = urllib2.Request(url, headers=ua_header)

# 将request对象作为urlopen的参数传入，接收服务器的响应，返回response对象
response = urllib2.urlopen(request)

# 调用对象方法，获取实体内容
html = response.read()

print html

在上面的例子我们，我们看到，”headers” 是一个字典类型的数据，既然这样的话，不仅可以添加”User-Agent”,我们还可以添加许多其他的Header信息。

 
  
#! python2
# -*- coding:utf-8 -*-

import urllib2
import random

url = "http://www.baidu.com/"

ua_list = [
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Mozilla/5.0 (Windows NT 6.1; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
    "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"
]
# 随机选择User-Agent
user_agent = random.choice(ua_list)

request = urllib2.Request(url)

# 添加user-agent
request.add_header("User-Agent", user_agent)
# 将访问请求设置为长连接
request.add_header("Connection", "keep-alive")
# 如果指定，默认是identify
# gzip是压缩格式，能够加速访问速度，但是对于爬虫来说，最好不要压缩，否则我们可能获取不到想要的数据
request.add_header("Accept-Encoding", "gzip, deflate, br")
# 将request对象作为urlopen的参数传入，接收服务器的响应，返回response对象
response = urllib2.urlopen(request)

# 调用对象方法，获取实体内容
html = response.read()

print html


 
 

运行程序，会发现控制台输出的内容不能正常显示了，这是因为我们加入了”Accept-Encoding”这个请求头。

博客转自曲良同学 http://www.pojun.tech

Wyxtnbp

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
urllib2库的基本使用(一)

urllib2库的基本使用(一) Published On October 23, 2017 前言学习python的一个重要的应用就是在互联网上爬取数据， python有众多性能卓越使用方便的库可以来完成这个任务，urllib2就是其中一个。 urllib2是python2.7 自带的一个库，不需要进
复制链接

扫一扫