1. CrawlSpider
rule 爬取规则
follws = True 是指爬取了一个URL之后,得到了response, 对response使用rules例表中的rule中定义的link_extractor对这个response提取新的url, 新的符合该rule的url(即新的links), 然后follow=True, 则, 对在该response中发现的新links, 发起request请求.
CrawlSpider 抓取start_urls
1. 假设start_urls = ["http://www.baidu.com"]
rules [A , B, C ]
2. 则 启动spider之后,得到response(仅一个)
分别用A(resp)-->links
B(resp)-->links
C(resp)-->links
对这些links都发起请求
3. 如果rule里有callback, 这一般应设置follows =False, 或者不设置, 这样就不会对该response发起规则里的link 请求了.