记录一次scrapy的crawlspider 详情页自动路径拼接问题

最新推荐文章于 2021-05-10 20:07:18 发布

GaryLea

最新推荐文章于 2021-05-10 20:07:18 发布

阅读量586

点赞数

分类专栏： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Li_G_yuan/article/details/106079914

版权

scrapy 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

我在运行scrapy crawlspider的时候，发现首页200请求成功，但是详情页返回404，于是，进入网站，查看详情页链接是什么样子

这是列表页

直接鼠标右键，新页面打开，发现网页正常，链接如下：

这下知道原因了，是crawlspider的路径拼接有问题，

正常打开的链接是https://www.xxx.com/xwzx/dzyw/202005/t2020058.html

而crawlspider 它自己拼接的链接是 https://www.xxx.com/202005/t2020058.html

它没有带上xwzx/dzyw这个前缀，因此，运行该爬虫，返回了404异常状态码

果断开始各种度娘谷哥，没有相关介绍，em~~我去看看scrapy官方文档，也没有...

无奈，自己去看源码

ctrl + 鼠标左键，进入crawlspider Rule的源码

但我打印attr_val 时发现它是正常的，那么问题就出在了base_url身上

知道了原因，那么就接着寻找base_url从哪里来的，我发现base_url就在刚开始的lxmlhtml.py这个文件夹中，再次上图

再次深入的时候，发现base_url在 response.py get_base_url里，但是没有摸透这一块，因为_baseurl_cache我打印不出来，这是一个对象- -,

好吧，只能使用治标不治本的方法，回到lxmlhtml.py这个文件中，强行更改base_url

如果有大佬有别的好的解决方案，烦请告知，我这个方法只能解决一下燃眉之急~~~

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
记录一次scrapy的crawlspider 详情页自动路径拼接问题

我在运行scrapy crawlspider的时候，发现首页200请求成功，但是详情页返回404，于是，进入网站，查看详情页链接是什么样子这是列表页直接鼠标右键，新页面打开，发现网页正常，链接如下：这下知道原因了，是crawlspider的路径拼接有问题，正常打开的链接是https://www.xxx.com/xwzx/dzyw/202005/t2020058.html而crawlspider 它自己拼接的链接是https://www.xxx.com/202005/...
复制链接

扫一扫

专栏目录

GaryLea CSDN认证博客专家 CSDN认证企业博客

码龄6年

102: 原创

4万+: 周排名

43万+: 总排名

11万+: 访问

: 等级

1757: 积分

489: 粉丝

84: 获赞

136: 评论

190: 收藏

私信

关注

分类专栏

大数据 1篇
hive 1篇
sqoop 1篇
pycharm 2篇
PyQt5 1篇
TCP/IP 1篇
python 14篇
ORM 1篇
MRO 1篇
html 2篇
DRF Frame work 1篇
django 3篇
pandas 2篇
scrapy 4篇
elasticsearch 1篇
elasticsearch-head 1篇
elasticsearch-rtf 1篇
kibana 1篇
mysql 1篇
mongo 1篇

最新评论

记录pyppeteer使用过程中遇到的BUG
HUTAC: python pyppeteer chrome 一直在blank页面不能跳转到指定的url 代码也一直在运行像是死循环大佬这个怎么回事呀？url地址是可以通过手动访问的，网络是中国这边的是可以用的。
关于Python Scrapy框架 yield scrapy.Request(next_url, call_back="")无法翻页情况解决
S_爱学习的猫: 感谢大佬指点，确实是don't_filter过滤掉了，找了好久感谢大佬指点
关于Python Scrapy框架 yield scrapy.Request(next_url, call_back="")无法翻页情况解决
GaryLea: 哈哈，能帮到就好，这都几年前的坑了，还能现在帮到你，真是我的荣幸
坐标转换小工具(python版)
GaryLea: 没有哦，我后面基本没有再搞这块了
坐标转换小工具(python版)
AgainLys: 请问可以CGCS2000转wgs84吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。