python爬虫基本库——从urllib库开始
urllib是python内置的HTTP请求库,它可以看作处理url组件的集合。urllin库包含四大模块分别是:
(1)urllib.request:请求模块
(1)urllib.error:异常处理模块
(3)urllib.parse:url解析模块
下面我们利用urllib模块快速爬取百度首页的内容:
import urllib.request # 导入urlli.request请求模块
# 导入urllib.request库中的urlopen()方法,并传入百度的url
response = urllib.request.urlopen("http://www.baidu.com")
# 使用read()读取爬到的网页内容,并采用utf-8的编码方式
html = response.read().decode("utf-8")
print(html)
上述代码就是一个简单爬取网页的案例,爬取到的是整个百度页面的HTML内容。