scrapy follow 笔记

1. CrawlSpider

rule 爬取规则

follws = True 是指爬取了一个URL之后,得到了response, 对response使用rules例表中的rule中定义的link_extractor对这个response提取新的url, 新的符合该rule的url(即新的links), 然后follow=True, 则, 对在该response中发现的新links, 发起request请求.

 

CrawlSpider 抓取start_urls

1. 假设start_urls = ["http://www.baidu.com"]

rules [A , B, C ]

2. 则 启动spider之后,得到response(仅一个)

分别用A(resp)-->links

B(resp)-->links

C(resp)-->links

 

对这些links都发起请求

3. 如果rule里有callback, 这一般应设置follows =False, 或者不设置, 这样就不会对该response发起规则里的link 请求了.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值