关于Scrapy使用Crawlspider
1、如何创建Crawlspider
在命令行输入 scrapy genspider -t crawl [爬虫名字] “域名”
(这里的-t是template模板的缩写)
2、两个参数LinkExtractors和Rule
1、
2、Rule
注意事项:
1、allow设置规则方法:要能够限制在我们想要的url上面。不要跟其他url产生相同的正则表达式即可
2、什么情况下使用follow:如果爬取页面的时候,需要满足当前条件的url在进行跟进,那么就将follow的参数设置为True,不需要跟进则设置为False
3什么情况下制定callback:如果这个url对应的页面只是为了获取更多的url,并不需要里面的数据,那么可以不指定callback,如果想要获得url对应页面中的数据,那么就需要制定一个url.
说的有点抽象举个例子 如图:
对于第一个网页链接我们并不在这个界面进行操作,只是为了获取更多的url,而是要进入这个网页里面去获取具体内容对应的链接,所以根据第一个网页我们设置的Rule里面并没有callback,而第二个rule里面设置了callback,因为我们想具体获取里面的数据