Scrapy之Spider的用法
Spider(爬虫)负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)。具体一些就是Spider定义了一个特定站点(或一组站点)如何被抓取的类,包括如何执行抓取(即跟踪链接)以及如何从页面中提取结构化数据(即抓取项)。也就是说我们要抓取的网站的链接配置、抓取逻辑、解析逻辑等其实都是在 Spider 中定义的 。在实现 Scrapy 爬虫项目时,最核心的类便是 Spider 类了,它定义了如何爬取某个网站的流程和解
转载
2022-07-13 23:57:39 ·
871 阅读 ·
0 评论