1.urlib库是python内置的http请求库,它可以看作处理url的组件集合。urllib库包含4大模块:
(1)urllib.request:请求模块
(2)urllib.error: 异常处理模块
(3)urllib.parse:URL解析模块
(4)urllib.robotparser:robots.txt解析模块
下面是用urllib库爬取百度首页
import urllib.request # 导入urllib的请求模块request
url = "http://www.baidu.com"
response = urllib.request.urlopen(url) # 调用urllib.request库的urlopen()方法打开网址
html = response.read().decode("utf-8") # 使用read()方法读取爬到的内容,并以utf-8方式编码
print(response.status) # 打印响应的状态码
print(html)
以上代码打印出来就可以看到我们把百度首页的网页源码全部爬下来了
2.分析urlopen()方法
urlopen()可以接受多个参数,该方法的定义如下:
urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)
上述方法的定义中的详细参数介绍如下:
(1)url:url地址的字符串,也可