Scrapy爬取页面错误原因汇总

最新推荐文章于 2023-10-11 10:40:30 发布

EUNC

最新推荐文章于 2023-10-11 10:40:30 发布

阅读量2.9k

点赞数 1

分类专栏： Scrapy 文章标签： Scrapy 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Yuyh131/article/details/83594246

版权

Scrapy 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

错误原因汇总

１．网址错误
２．缩进问题
３．网页有反爬虫
反爬虫解决方案：

基本：请求头user-agent
IP代理
改机器人协议以及cookie
ROBOTSTXT_OBEY = False
COOKIES_ENABLED = False
设置延迟
　DOWNLOAD_DELAY = 3
在分段函数中所要爬取的url有反爬虫
解决方案：在请求的url后面添加头文件如以下，头文件可以从问题三的附录中随机取

url获取出错示例

url = response.selector.xpath(’//*[@class=‘lbf-pagination-item-list’]//li[9]/a/@href’).extract()[0]
print(url)
yield scrapy.Request(url, callback=self.parse)
如上图代码，scrapy 爬虫过程中，在实现翻页时，偶然遇见如下报错：
Missing scheme in request url：
百度许多同学总结了一下原因：
1.requests版本太低：
2.scrapy.Resquest(URL),url 应该是一个list…

但是实际问题并不是这些原因所致

经过反复研究，发现上图代码中获取的到 url 链接内部，用“；”替代了“&”。因此scrapy 不能识别该网页所致。
解决办法：
1.改用URL 拼接而成的url list 做yield 调用self.parse
2.页面本来可能纯在一些问题。等待页面更新，正常页面链接不应该使用“；”（刚开始使用1方法实现了。后来，准备用原始代码记录错误时，发现页面已经更新为“&”，该报错已经不纯在）。

相关文档：

https://blog.csdn.net/weixin_41931602/article/details/80200695

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Scrapy爬取页面错误原因汇总

url = response.selector.xpath(’//*[@class=‘lbf-pagination-item-list’]//li[9]/a/@href’).extract()[0]print(url)yield scrapy.Request(url, callback=self.parse)如上图代码，scrapy 爬虫过程中，在实现翻页时，偶然遇见如下报错：Missin...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。