第7章 Scrapy框架
前面几章介绍了使用requests加BeatifulSoup工具来获取网页、解析网页、存储数据,上手比较简单,但是每个功能的代码都要自己实现。本章介绍的Scrapy是一个爬虫框架,它将上述的很多功能都封装进框架里。使用较少的代码就能完成爬虫的工作。
本章首先介绍Scrapy和Requests的对比,然后介绍如何安装Scrapy,如何使用Scrapy进行抓取,Scrapy的注意事项,最后通过Scrapy爬虫实践来实现真正上手。
目录
7.1 Scrapy是什么
Scrapy是一个为了爬取网站数据,提取数据而编写的应用框架。简单来说,它把爬虫的三步:获取网页,解析网页,存储数据都整合成了这个爬虫框架。这样,通过Scrapy实现一个爬虫变得简单了很多。
7.1.1 Scrapy架构
下面的图7-1展示了Scrapy的架构,包括了各个组件,以及数据流的情况(箭头所示)。