说明:初学者,整理后方便能及时完善,冗余之处请多提建议,感谢!
了解内容:
Scrapy :抓取数据的爬虫框架
异步与非阻塞的区别
异步:指的是整个过程,中间如果是非阻塞的,那就是异步过程;
非阻塞:关注拿到结果之前的状态 (如果拿到结果前在等待,是阻塞,反之,是非阻塞)
理解:
Scrapy 基本工作流程(简单--->复杂)
每个模块间不通讯,模块之间通过引擎进行数据传输
基本使用
一、创建spider
scrapy项目流程
---创建项目
---scrapy startproject xxxx
---创建爬虫
---cd 项目目录下
---scrapy genspider aaa allowed_domains"”
scrapy genspider first_spider jpdd.com
first_spider 爬虫名字
jpdd.com 限制爬取数据的范围
--完善spider
---提取