scrapy爬虫（五）--使用crawl模板进行全站爬取

最新推荐文章于 2022-09-24 06:15:00 发布

futianwenA

最新推荐文章于 2022-09-24 06:15:00 发布

阅读量1.3k

点赞数

分类专栏： Python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/futianwenA/article/details/105334760

版权

创建项目前文已经有了，不在赘述，在生成模板时指定crawl模板(以爬取拉钩为例)：scrapy gendpider -t crawl lagou www.lagou.com，生成如下模板

在rules中创建Rule对象，明确url的提取规则，即哪些是详情页的url，哪些页面中存在详情页url，如首先爬虫会调用start_requests方法访问主页（start_requests方法是继承自scrapy.Spider，因为LagouSpider继承CrawlSpider，而CrawlSpider继承了scrapy.Spider），根据Rule中的allow规则提取相应的url，然后再调用start_requests访问该url，如果Rule中传递了callback参数（提取详情页的方法：如图中的parse_item方法），则调用该方法并将response传递该方法，如果没有传递则调用继承自CrawlSpider的parse方法并将response传给parse方法
通过分析拉钩网可以知道，在首页、招聘页、公司也都存在详情页的url

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注