Python爬虫学习：使用urllib（request）

最新推荐文章于 2023-12-09 11:36:27 发布

南淮北安

最新推荐文章于 2023-12-09 11:36:27 发布

阅读量678

点赞数

分类专栏： Python 爬虫学习文章标签： Python爬虫学习使用urllib（request）

本文链接：https://blog.csdn.net/nanhuaibeian/article/details/89075453

版权

Python 爬虫学习专栏收录该内容

58 篇文章 29 订阅

订阅专栏

文章目录

- 1. 前言
- 2. 发送请求

1. 前言

在Python2中，有urllib和urllib2两个库来实现请求的发送。而在python3中，已经不存在urllib2这个库了，统一为urllib。
urllib是Python内置的HTTP请求库，也就是说不需要额外安装即可使用，它一共包含四个模块：

request：它是最基本的HTTP请求模块，可以用来模拟发送请求。就像在浏览器输入网址，然后回车一样，只需要给库方法传入URL以及额外的参数，就可以实现这个过程

error：异常处理模块，如果出现请求错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止

parse：一个工具模块，提供了许多URL处理方法，比如拆分、解析、合并等

robotparser：主要用来识别网站的robots.txt文件，然后判断哪些网站可以爬，哪些网站不可以爬

2. 发送请求

我们使用urllib的request模块，可以方便地实现请求的发送并得到响应

urlopen()

urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,
            *, cafile=None, capath=None, cadefault=False)

import urllib.request
url = 'http://www.baidu.com'
response = urllib.request.urlopen(url)
print(response.read().decode('utf-8'))

print(type(response)) # <class 'http.client.HTTPResponse'>

它返回的是一个HTTPResponse类型的对象，主要包含read()、getheader(name)、getheaders()等方法，以及version、reason、closed等属性

得到这个对象之后，我们可以把它赋值为response变量，然后就可以调用这些方法和属性，从而得到一系列信息了

import urllib.request
url = 'http://www.baidu.com'
response = urllib.request.urlopen(url)
print(response.status)#200
print(response.getheaders())
print(response.getheader('Connection'))#close

data参数：这个参数是可选的，如果传递了这个参数，则它的请求方式就不再是GET方式，而是POST方式,这个data参数的值必须符合这个application/x-www-form-urlencoded的格式，可以使用urllib.parse.urlencode()将字符串转换为这个格式

import urllib.request
import urllib.parse
import json
# 浏览器请求的网址
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
content=input("请输入需要翻译的内容：")
data={}
data['i']=content
data['from']='AUTO'
data['to']='AUTO'
data['smartresult']='dict'
data['client']='fanyideskweb'
data['doctype']='json'
# 使用urllib.parse.urlencode()转换字符串
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen(url,data)
html = response.read().decode('utf-8')
target = json.loads(html)
print("翻译结果：%s"% (target['translateResult'][0][0]['tgt']))

timeout参数：用于设置超时时间，单位为秒，意思就是如果请求超出了设置的这个时间，还没有得到响应，就会抛出异常，如果不指定该参数，就会使用全局默认时间

import urllib.request
url = 'http://www.baidu.com'
try:
    response = urllib.request.urlopen(url,timeout=1)
    print(response.read().decode('utf-8'))
except:
    print("Time out")

这里我们设置超时时间来控制一个网页如果长时间未响应，就跳过它的抓取

Request
利用urlopen()方法可以实现最基本请求的发起，但这几个简单的参数不再是URL，而是一个Request类型的对象

class urllib.request.Request(url, data=None, headers={},
                 origin_req_host=None, unverifiable=False,
                 method=None)
#url:用于请求URL，这是必传参数，其他都是可选参数
#data：表示是否为POST方式
#headers：是一个字典，请求头，可以对其修改，来伪装浏览器
#origin_req_host：指请求方的host名称或者IP地址
#unverifiable：表示这个请求时无法验证的，默认是FALSE，意思就是没有足够权限来选择接受这个请求的结果
#method：表示请求的方法