提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
目录
一般比较小型的爬虫需求,可以直接使用requests库 + bs4就解决了,再麻烦点的就使用selenium解决js的异步加载问题。
Python爬虫框架一般在遇到比较大型的需求时会用到,主要是为了方便管理以及扩展。
下面收集整理了5个高效的爬虫框架,对于你日常的使用会有一定的帮助。
一、Scrapy框架
1、用途:
Scrapy是用纯 Python 实现一个为了爬取网站数据、提取结构性数据而编写的应用框架, 用途非常广泛。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中,也可以应用在获取API所返回的数据。
Scrapy可以很方便的进行web抓取,并且可以很方便的根据自己的需求进行定制。
2、Scrapy运行流程:
-
引擎从调度器中取出一个链接(URL)用于接下来的抓取
-
引擎把URL封装成一个请求(Request)传给下载器
-
下载器把资源下载下来,并封装成应答包(Response)
-
爬虫解析Response
-
解析出实体(Item),则交给实体管道进行进一步的处理
-
解析出的是链接(URL),则把URL交给调度器等待抓取
二、PySpider框架
1、用途:
jgnukPySpider是binux做的一个爬虫架构的开源化实现,强大的网络爬虫系统,并自带有强大的webUI,分布式架构,支持多种数据库后端。
pyspider上手更简单,操作更加简便,因为它增加了 WEB 界