Scrapy之 CrawlSpider(Python)

关于Scrapy使用Crawlspider

1、如何创建Crawlspider
				在命令行输入 scrapy genspider -t  crawl [爬虫名字] “域名”
			(这里的-t是template模板的缩写)
2、两个参数LinkExtractors和Rule

1、
图片来自b站视频
2、Rule
图片来自b站视频

注意事项:

1、allow设置规则方法:要能够限制在我们想要的url上面。不要跟其他url产生相同的正则表达式即可
2、什么情况下使用follow:如果爬取页面的时候,需要满足当前条件的url在进行跟进,那么就将follow的参数设置为True,不需要跟进则设置为False
3什么情况下制定callback:如果这个url对应的页面只是为了获取更多的url,并不需要里面的数据,那么可以不指定callback,如果想要获得url对应页面中的数据,那么就需要制定一个url.
说的有点抽象举个例子 如图:

对于第一个网页链接我们并不在这个界面进行操作,只是为了获取更多的url,而是要进入这个网页里面去获取具体内容对应的链接,所以根据第一个网页我们设置的Rule里面并没有callback,而第二个rule里面设置了callback,因为我们想具体获取里面的数据

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值