记一次使用scrapy过程中遇到的问题之过滤问题

我们都知道,scrapy的默认过滤机制是过滤已经请求过的url地址,就是说如果某个url地址在发起新的请求前已经请求过了,那么scrapy默认会给我们过滤掉本次请求,如果想改变这种默认机制也是可以的,在发请求的时候假如参数dont_filter=True,这个值默认是False的,所以才会过滤掉已经请求过的地址,至于过滤的原理是基于什么,这里不做详细介绍,有兴趣的可以看下scrapy的源码介绍,是基于sha1的加密算法生成指纹做判断的。

我今天遇到的这个问题其实是很low的,因为爬取某网站中的一个接口做了更改(主要是域名改了),我只是在发起请求时把地址改成了对应的新的地址,如果没有用过scrapy的朋友可能不知道,这还不够,你要把新的域名假如到你爬虫的allowed_diamond中,否则爬虫会把这种请求自动过滤掉的,我就是因为没有改这里,所以,最后结果和我预期的有很大差距,经过一番查找,才发现忘了改这里

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值