python爬虫urllib模块详解(1)

2401_83817689

于 2024-04-21 13:13:36 发布

阅读量556

点赞数 7

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2401_83817689/article/details/138031261

版权

程序员专栏收录该内容

375 篇文章 0 订阅

订阅专栏

action: FY_BY_REALTlME

代码示例如下：

import urllib.request

import urllib.parse

import json

要进行输入内容

key = input(“请输入内容：”)

data = {

“i”: key,

“from”: “AUTO”,

“to”: “AUTO”,

“smartresult”: “dict”,

“client”: “fanyideskweb”,

“salt”: “16374132986488”,

“sign”: “dfd139af546a8cd63de0676f446ca2ee”,

“lts”: “1637413298648”,

“bv”: “03a6a27012b22bc3c7ecc76381772182”,

“doctype”: “json”,

“version”: “2.1”,

“keyfrom”: “fanyi.web”,

“action”: “FY_BY_REALTlME”,

}

字节流，如果输入中文，需要处理的

data = urllib.parse.urlencode(data) # 转为十六进制形式

data = bytes(data, encoding=‘utf8’) # 转为字节流

headers = {

‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36’

}

目标url发请求

{“errorCode”:50} ，把_o

url = ‘https://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule’

构建请求对象

req = urllib.request.Request(url, data=data, headers=headers)

发请求，获取响应对象

res = urllib.request.urlopen(req)

print(res.getcode()) # 得到响应码，200表示请求成功

html = res.read().decode(‘utf-8’)

print(type(html)) # <class ‘str’>，得到的是json数据

json数据转字典

dic = json.loads(html)

result = dic[“translateResult”] # [[{‘src’: ‘你好’, ‘tgt’: ‘hello’}]]

print(result[0][0][‘tgt’])

在这里插入图片描述

另一个简单的示例：

import urllib.request # 导入urllib.request模块

import urllib.parse # 导入urllib.parse模块

url = ‘https://www.httpbin.org/post’ # post请求测试地址

将表单数据转换为bytes类型，并设置编码方式为utf-8

print()

data = bytes(urllib.parse.urlencode({‘hello’: ‘python’}), encoding=‘utf-8’)

response = urllib.request.urlopen(url=url, data=data) # 发送网络请求

print(response.read().decode(‘utf-8’)) # 读取HTML代码并进行

在这里插入图片描述

5. 设置网络超时

================================================================================

urlopen()的timeout参数用于设置请求超时，该参数以秒为单位，表示如果在请求时超出了设置的时间还没有得到响应时就会抛出异常。

import urllib.request

url = ‘https://www.python.org/’

response = urllib.request.urlopen(url=url, timeout=0.1) # 设置超时时间为0.1秒

print(response.read().decode(‘utf-8’))

因为0.1秒设置的过快，结果因超时而产生异常，报错。

通常根据网络环境不同，设置一个合理的时间，如2秒，3秒。

对该网络超时异常进行捕捉并处理：

import urllib.request # 导入urllib.request模块

import urllib.error # 导入urllib.error模块

import socket # 导入socket模块

url = ‘https://www.python.org/’ # 请求地址

try:

发送网络请求,设置超时时间为0.1秒

response = urllib.request.urlopen(url=url, timeout=0.1)

print(response.read().decode(‘utf-8’)) # 读取HTML代码并进行utf-8解码

except urllib.error.URLError as error: # 处理异常

if isinstance(error.reason, socket.timeout): # 判断异常是否为超时异常

print(‘当前任务已超时，即将执行下一任务！’)

在这里插入图片描述

6. 复杂网络请求_urllib.request.Request()

==========================================================================================================

urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

参数说明：

url：访问网站的完整url地址
data：默认为None，表示请求方式为get请求；如果需要实现post请求，需要字典形式的数据作为参数。
headers：设置请求头部信息，字典类型。
origin_req_host：用于设置请求方的host名称或者IP。
unverifiable：用于设置网页是否需要验证，默认值为False。
method：用于设置请求方式，如GET，POST。

7.设置请求头

=============================================================================

7.1get请求示例

url = ‘https://www.baidu.com’

定义请求头信息

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36’}

创建Request对象

r = urllib.request.Request(url=url, headers=headers)

response = urllib.request.urlopen® # 发送网络请求

print(response.read().decode(‘utf-8’)) # 读取HTML代码并进行utf-8解码

在这里插入图片描述

7.2post请求示例

import urllib.request # 导入urllib.request模块

import urllib.parse # 导入urllib.parse模块

url = ‘https://www.httpbin.org/post’ # 请求地址

定义请求头信息

headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36’}

将表单数据转换为bytes类型，并设置编码方式为utf-8

data = bytes(urllib.parse.urlencode({‘hello’: ‘python’}),encoding=‘utf-8’)

创建Request对象

r = urllib.request.Request(url=url,data=data,headers=headers,method=‘POST’)

response = urllib.request.urlopen® # 发送网络请求

print(response.read().decode(‘utf-8’)) # 读取HTML代码并进行utf-8解码

创建出一个Request对象，然后直接调用urlopen()函数。

创建Request也被称为创建请求对象。

在这里插入图片描述

8. Cookies的获取与设置

=======================================================================================

Cookies是服务器向客户端返回响应数据时所留下的标记。当客户再次访问服务器时会携带这个标记。一般登录一个页面成功后，会在浏览器的cookie中保留一些信息，再次访问时服务器核对后即可确认当前用户登录过，此时可直接将登录后的数据返回。

import urllib.request

url = “https://www.csdn.net/”

opener = urllib.request.build_opener() # 获取opener对象

resp = opener.open(url)

print(resp.read().decode())

因为urlopen()方法不支持代理、cookie等其他的HTTP/GTTPS高级功能，所以这里不用urlopen()发送请求，而需要创建一个opener对象（这本来是urllib2中的方法）。示例如下。学习过程中这里作为了解即可，建议重点研究/使用requests库。

import urllib.request # 导入urllib.request模块

import http.cookiejar # 导入http.cookiejar子模块

登录后页面的请求地址

url = ‘xxx’

cookie_file = ‘cookie.txt’ # cookie文件

cookie = http.cookiejar.LWPCookieJar() # 创建LWPCookieJar对象

读取cookie文件内容

cookie.load(cookie_file,ignore_expires=True,ignore_discard=True)

生成cookie处理器

handler = urllib.request.HTTPCookieProcessor(cookie)

创建opener对象

opener = urllib.request.build_opener(handler)

response = opener.open(url) # 发送网络请求

print(response.read().decode(‘utf-8’)) # 打印登录后页面的html代码

9.设置代理IP

==============================================================================

import urllib.request # 导入urllib.request模块

url= ‘xxxxxxxxxxxxxxx’

创建代理IP

proxy_handler = urllib.request.ProxyHandler({

‘https’: ‘xxxxxxxxxxxxxxxxx’ # 写入代理IP

})

创建opener对象

opener = urllib.request.build_opener(proxy_handler)

response = opener.open(url,timeout=2)

print(response.read().decode(‘utf-8’))

10.异常处理

=============================================================================

urllib模块中的urllib.error子模块包含了URLError与HTTPError两个比较重要的异常类。

10.1 URLError

URLError类提供了一个reason属性，可以通过这个属性了解错误的原因。示例如下：

import urllib.request # 导入urllib.request模块

import urllib.error # 导入urllib.error模块

try:

向不存在的网络地址发送请求

response = urllib.request.urlopen(‘https://www.python.org/1111111111.html’)

except urllib.error.URLError as error: # 捕获异常信息

print(error.reason) # 打印异常原因

程序运行结果：

在这里插入图片描述

10.2HTTPError

HTTPError类是URLError的子类，主要用于处理HTTP请求所出现的一次。此类有以下三个属性。

code :返回HTTP状态码
reason 返回错误原因
headers 返回请求头

import urllib.request # 导入urllib.request模块

import urllib.error # 导入urllib.error模块

try:

向不存在的网络地址发送请求

response = urllib.request.urlopen(‘https://www.python.org/1111111111.html’)

print(response.status)

except urllib.error.HTTPError as error: # 捕获异常信息

print(‘状态码为：’,error.code) # 打印状态码

print(‘异常信息为：’,error.reason) # 打印异常原因

print(‘请求头信息如下：\n’,error.headers) # 打印请求头

结果如下（部分）：

在这里插入图片描述

10.3URLError&HTTPError双重异常捕捉

因为URLError是HTTPError的父类，所以在捕获异常的时候可以先找子类是否异常，父类的异常应当写到子类异常的后面，如果子类捕获不到，那么可以捕获父类的异常。

URLError产生的原因主要是

1. 网络没有连接，
1. 服务器连接失
1. 找不到指定的服务器。

当使用urlopen或 opener.open 不能处理的，服务器上都对应一个响应对象，其中包含一个数字（状态码），如果urlopen不能处理，urlopen会产生一个相应的HTTPError对应相应的状态码，HTTP状态码表示HTTP协议所返回的响应的状态码。

import urllib.request # 导入urllib.request模块

import urllib.error # 导入urllib.error模块

try:

response = urllib.request.urlopen(‘https://www.python.org/’,timeout=0.1)

except urllib.error.HTTPError as error: # HTTPError捕获异常信息

print(‘状态码为：’,error.code) # 打印状态码

print(‘HTTPError异常信息为：’,error.reason) # 打印异常原因

print(‘请求头信息如下：\n’,error.headers) # 打印请求头

except urllib.error.URLError as error: # URLError捕获异常信息

print(‘URLError异常信息为：’,error.reason)

这里访问了一个真实存在的URL，输出结果为：

在这里插入图片描述

11.解析URL

==============================================================================

urllin模块提供了parse子模块用来解析URL。

11.1 拆分URL

urlparse()方法

parse子模块提供了urlparse()方法，实现将URL分解成不同部分，语法格式如下：

urllib.parse.urlparse(urlstring,scheme=’’,allow_fragment=True)

urlstring：需要拆分的URL，必选参数。
scheme：可选参数，需要设置的默认协议，默认为空字符串，如果要拆分的URL中没有协议，可通过该参数设置一个默认协议。
allow_fragment：可选参数，如果该参数设置为False，则表示忽略fragment这部分内容，默认为True。

示例：

import urllib.parse #导入urllib.parse模块

parse_result = urllib.parse.urlparse(‘https://docs.python.org/3/library/urllib.parse.html’)

print(type(parse_result)) # 打印类型

print(parse_result) # 打印拆分后的结果

程序运行结果：

在这里插入图片描述

用此方法，除了返回ParseResult对象以外，还可以直接获取ParseResult对象中的每个属性值：

print(‘scheme值为：’, parse_result.scheme)

print(‘netloc值为：’, parse_result.netloc)

print(‘path值为：’, parse_result.path)

print(‘params值为：’, parse_result.params)

print(‘query值为：’, parse_result.query)

print(‘fragment值为：’, parse_result.fragment)

在这里插入图片描述

urlsplit()方法

urlsplit()方法与urlparse()方法类似，都可以实现URL的拆分。只是urlsplit()方法不再单独拆分params这部分内容，而是将params合并到path中，所以返回结果只有5部分内容。且返回的数据类型为SplitResult。

import urllib.parse #导入urllib.parse模块

需要拆分的URL

url = ‘https://docs.python.org/3/library/urllib.parse.html’

print(urllib.parse.urlsplit(url)) # 使用urlsplit()方法拆分URL

print(urllib.parse.urlparse(url)) # 使用urlparse()方法拆分URL

程序运行结果：

在这里插入图片描述

11.2 组合URL

urlunparse()方法

urlunparse()方法实现URL的组合

语法：urlunparse(parts)

parts表示用于组合url的可迭代对象

import urllib.parse #导入urllib.parse模块

list_url = [‘https’, ‘docs.python.org’, ‘/3/library/urllib.parse.html’, ‘’, ‘’, ‘’]

tuple_url = (‘https’, ‘docs.python.org’, ‘/3/library/urllib.parse.html’, ‘’, ‘’, ‘’)

dict_url = {‘scheme’: ‘https’, ‘netloc’: ‘docs.python.org’, ‘path’: ‘/3/library/urllib.parse.html’, ‘params’: ‘’, ‘query’:‘’, ‘fragment’: ‘’}

print(‘组合列表类型的URL：’, urllib.parse.urlunparse(list_url))

print(‘组合元组类型的URL：’, urllib.parse.urlunparse(tuple_url))

print(‘组合字典类型的URL：’, urllib.parse.urlunparse(dict_url.values()))

程序运行结果：

在这里插入图片描述

urlunsplit()方法

同样用于URL组合，只是参数中的元素必须是5个。

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

是5个。

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

[外链图片转存中…(img-BSi6pOyL-1713676405304)]

[外链图片转存中…(img-HyKPbuuA-1713676405305)]

[外链图片转存中…(img-XFE5V4l1-1713676405305)]

[外链图片转存中…(img-tUKN79Om-1713676405306)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注：Python）

2401_83817689

关注

7
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录