【PYTHON3学习】常用内置模块urllib学习总结

最新推荐文章于 2023-05-25 10:31:23 发布

紫菜花油菜花

最新推荐文章于 2023-05-25 10:31:23 发布

阅读量2.9k

点赞数 4

分类专栏： python 文章标签： python http

本文链接：https://blog.csdn.net/weixin_42157432/article/details/104441027

版权

1 urllib提供了一系列用于操作URL的功能1.1 简单爬虫1.引入请求模块——from urllib import request2.打开网页——request.urlopen()3.读取网页——read此处以https://www.douban.com为例子from urllib import requestwith request.urlopen('https://www...

摘要由CSDN通过智能技术生成

1 `urllib`

提供了一系列用于操作URL的功能

1.1 简单爬虫

1.引入请求模块——from urllib import request
2.打开网页——request.urlopen()
3.读取网页——read
此处以https://www.douban.com为例子

from urllib import request
with request.urlopen('https://www.douban.com') as f:
	data=f.read()			#二进制流文件

with open('./douban.html','wb') as fw:
	f.write(data)

此时查看该文件，就可以看到爬取的网页。

1.2 urlopen入门

1.2.1 查看`urlopen（）`参数如下

>>> from inspect import signature
>>> signature(request.urlopen)
<Signature (url, data=None, timeout=<object object at 0x000002066EEE7D80>, *, cafile=None, capath=None, cadefault=False, context=None)>

常用参数

url：目标资源在网络中的位置。【URL字符串，Request对象】
data：data用来指明发往服务器请求中的额外的参数信息（如：在线翻译，在线答题等提交的内容），data默认是None，此时以GET方式发送请求；当用户给出data参数的时候，改为POST方式发送请求。
timeout：访问超时时间

1.2.2 timeout

from urllib import request
from urllib import error
import socket
try:
	response=request.urlopen('http://www.baidu.com',timeout=0.00001)
except error.URLError as e:
	if

最低0.47元/天解锁文章

紫菜花油菜花

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
3
评论
【PYTHON3学习】常用内置模块urllib学习总结

1 urllib提供了一系列用于操作URL的功能1.1 简单爬虫1.引入请求模块——from urllib import request2.打开网页——request.urlopen()3.读取网页——read此处以https://www.douban.com为例子from urllib import requestwith request.urlopen('https://www...
复制链接

扫一扫