Scrapy之 CrawlSpider(Python)

最新推荐文章于 2022-10-08 15:36:11 发布

小贾也有编程梦

最新推荐文章于 2022-10-08 15:36:11 发布

阅读量285

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/m0_46377561/article/details/106357120

版权

关于Scrapy使用Crawlspider

1、如何创建Crawlspider

				在命令行输入 scrapy genspider -t  crawl [爬虫名字] “域名”
			（这里的-t是template模板的缩写）

2、两个参数LinkExtractors和Rule

1、
图片来自b站视频
2、Rule

注意事项：

1、allow设置规则方法：要能够限制在我们想要的url上面。不要跟其他url产生相同的正则表达式即可
2、什么情况下使用follow:如果爬取页面的时候，需要满足当前条件的url在进行跟进，那么就将follow的参数设置为True,不需要跟进则设置为False
3什么情况下制定callback:如果这个url对应的页面只是为了获取更多的url，并不需要里面的数据，那么可以不指定callback,如果想要获得url对应页面中的数据，那么就需要制定一个url.
说的有点抽象举个例子如图：

对于第一个网页链接我们并不在这个界面进行操作，只是为了获取更多的url，而是要进入这个网页里面去获取具体内容对应的链接，所以根据第一个网页我们设置的Rule里面并没有callback,而第二个rule里面设置了callback,因为我们想具体获取里面的数据