本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理
以下文章来源于腾讯云 作者:keinYe
urllib 是 Python 自带的网络请求标准库,包含了多个处理 URL 功能的模块。
- urllib.request 用于请求和读取 URL『包含网页认证、重定向、cookies 等等』,可以方便的获取 URL 内容。
- urllib.error 用于 urlib.request 的异常处理。
- urllib.parse 用于 urls 解析。
- urllib.robotparse 用于 robot.txt 文件解析。
urllib.request 和 urllib.error 是我们常用的两个库,这两个库也是在爬虫程序中使用频繁的库。
urllib.request
通过 urllib.request 模块可以发送 http 请求,并读取请求结果。
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False , context=None
参数信息如下:
- url 是网页网址,可以是域名也可以是 IP 地址。
- data 是发往服务器的数据,当无数据发送时可省略该参数,是 bytes 类型的内容,可通过 bytes()函数转为化字节流
- timeout 用于设置请求超时时间;单位是秒。
- cafile 和 capath 代表 CA 证书和 CA 证书的路径。如果使用HTTPS则需要用到。
- cadefault 目前已弃用。
- context 参数必须是 ss