为什么要学习爬虫
数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样。学会如何获取数据是挖掘的前提也十分重要,所以数据分析实战最初的上手项目是了解掌握如何通过python爬取网络数据
爬虫的流程
相信你对“爬虫”这个词已经非常熟悉了,爬虫实际上是用浏览器访问的方式模拟了访问网站的过程,整个过程包括三个阶段:打开网页、提取数据和保存数据。
在Python中,这三个阶段都有对应的工具可以使用。
在“打开网页”这一步骤中,可以使用 Requests 访问页面,得到服务器返回给我们的数据,这里包括HTML页面以及JSON数据。
在“提取数据”这一步骤中,主要用到了两个工具。针对HTML页面,可以使用 XPath 进行元素定位,提取数据;针对JSON数据,可以使用JSON进行解析。
在最后一步“保存数据”中,我们可以使用 Pandas 保存数据,最后导出CSV文件。
爬虫实现
1.项目介绍:
通过python自动化工具,从豆瓣图片和豆瓣电影中下载图片
2.项目实现:
2.1 通过解析json获取图片数据:
爬虫的整个流程分为:
1.打开网页;
2.输入关键词;
3.在搜索结果页中选择“图片”;