urllib库概述
1.简述作用
urllib.request:请求模块
urllib.error:异常处理模块
urllib.parse:URL解析模块
urllib.robotparser:robots.txt解析模块
2.快速爬取页面
import urllib.request
# 调用urllib库里的urlopen()方法,并传入一个url
url="https://www.runoob.com/html/html5-intro.html"
response=urllib.request.urlopen(url);
# 读取获取网页内容,并采用UTF-8格式解码
html=response.read().decode('UTF-8')
分析:
urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,*, cafile=None, capath=None, cadefault=False, context=None)方法,可以接多个参数值
其中参数的含义如下:
url:网页资源地址
data:用来指明向服务器发送的额外信息。data默认为None,这是是以GET方式发送请求的,当data被设置值时,需要把发送请求设置为POST
timeout:设置超时时间,单位为秒
cafile/capth/cadefault:用于实现可信赖的CA证书的HTTPS请求
context:实现SSL加密传输