使用Scrapy编写爬虫程序中遇到的问题及解决方案记录

最新推荐文章于 2023-05-03 10:06:14 发布

weixin_30877755

最新推荐文章于 2023-05-03 10:06:14 发布

阅读量528

点赞数

文章标签： python 爬虫 json

原文链接：http://www.cnblogs.com/duanzi6/p/9591480.html

版权

1、创建与域名不一致的Request时，请求会报错

解决方法：创建时Request时加上参数dont_filter=True

2、当遇到爬取失败（对方反爬检测或网络问题等）时，重试，做法为在解析response时判断response特征，失败时yield Request(response.url)，但是重试并没有发出去请求。

解决方法：原因时Scrapy的机制对于已经发送过的同url的request并不会再次发送，所以需要在构造Request加上参数dont_filter=True

3、解析到数据再pipelines中入库时，由于部分字段按预设的规则可能爬取不到，这时插库的sql会报错

解决方法：如果挨个字段判断的话太冗长了，所以这里选择用异常捕获的方式，放弃这部分数据而让爬虫顺利的执行下去

4、在爬取商品列表数据时，正则findall的方式，当其中某个商品假设其缺少了comment字段，在入库时就会导致顺序对应错乱

解决方法：使用Json解析的方法应该可以处理这个问题，但是用于Json解析效率太低，所以这里没处理

dont_filter=True

转载于:https://www.cnblogs.com/duanzi6/p/9591480.html

weixin_30877755

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用Scrapy编写爬虫程序中遇到的问题及解决方案记录

1、创建与域名不一致的Request时，请求会报错解决方法：创建时Request时加上参数dont_filter=True2、当遇到爬取失败（对方反爬检测或网络问题等）时，重试，做法为在解析response时判断response特征，失败时yield Request(response.url)，但是重试并没有发出去请求。解决方法：原因时Scrapy的机制对于已经发送过的同url的req...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。