爬虫定义:
狭义定义:模拟浏览器浏览网页,并保存关心的数据的程序。
广义定义:自动下载网络数据的程序。网络数据包括:网页数据/游戏数据/App数据等等
简单起见,这里仅讨论的是基于网页的爬虫。
通过浏览器上网的流程:
首先在浏览器输入网址(URL),回车后向浏览器发起Requests请求,服务器通过域名解析得到HTML等文件的内容并Response返回给浏览器,最终浏览器将这些文件渲染成我们看到的页面。如下图所示:
我们爬虫关心的重点是Requests与Response。
爬虫流程:
下载数据:
下载的其实是HTML/json等文件
工具:通过requests套件下载,用命令pip install requests安装
解析数据:
解析下载的数据,获取需要的信息
解析的对象是HTML等文件
工具:通过xpath或bs4.BeautifulSoup套件解析,BeautifulSoup用命令pip install BeautifulSoup4安装
保存数据:
保存在本地
保存到数据库
编写爬虫获得网页数据
准备工作:
- 安装python3
- 安装Jupyter:pip install jupyter
- 启动:jupyter notebook
- 弹出的浏览器中,找到New--->Python3
- 写入python语句,按sh