利用Scrapy框架下载图片报400状态码

最新推荐文章于 2023-09-13 15:17:24 发布

有关心情

最新推荐文章于 2023-09-13 15:17:24 发布

阅读量1.3k

点赞数

分类专栏：报错集合文章标签： scrapy code:400

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41359051/article/details/81456795

版权

在使用Scrapy框架爬取伯乐在线并下载图片时遇到400状态码问题。问题源于在settings.py中请求头设置了Host字段。删除该字段后，图片下载恢复正常。反思中提到，Host字段应指向实际请求的HTTP服务器地址，不正确设置可能导致请求失败。

摘要由CSDN通过智能技术生成

问题：

利用Scrapy框架爬伯乐在线的时候，涉及到图片下载，因为scrapy框架中内置有图片下载功能，所以没有另外写，直接使用。在settings.py中做了如下修改：

ITEM_PIPELINES = {
    'Article.pipelines.ArticlePipeline': 300,
    "scrapy.pipelines.images.ImagesPipeline": 1
}

程序跑起来很OK，但没有图片下载下来，一检查，发现存在这样的警告：
[scrapy.pipelines.files] WARNING: File (code: 400): Error downloading file from <GET xxx> referred in <None>

经排查，找到问题出现在请求头的设置部分：

DEFAULT_REQUEST_HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 '

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
利用Scrapy框架下载图片报400状态码

利用Scrapy框架爬伯乐在线的时候，涉及到图片下载，因为scrapy框架中有内置的图片下载文件，所以我没有另外写，而是直接使用。在settings.py中做了如下修改...
复制链接

扫一扫

专栏目录

有关心情 CSDN认证博客专家 CSDN认证企业博客

码龄7年

137: 原创

3万+: 周排名

183万+: 总排名

50万+: 访问

: 等级

5302: 积分

152: 粉丝

533: 获赞

120: 评论

1555: 收藏

私信

关注

分类专栏

Rust 2篇
网络 1篇
Flutter 1篇
Go 6篇
HTTP 1篇
配置问题 16篇
Python 10篇
Python爬虫 16篇
Js 1篇
C 7篇
报错集合 4篇
Python小记 32篇
算法基础 6篇
C++ 4篇
Leetcode 5篇
设计模式 3篇
STL 1篇
Shell 3篇
数据分析 1篇
Linux性能优化 3篇
工具 8篇
Flask 1篇
SQL 3篇

最新评论

MAC-快捷键打开终端
Lemon Skype～zz: 试过了，没有用
fetch 引发 blocked by CORS policy
Hg_nice: 这就没了？？？没说完吧
super()函数的使用
Kamen Black君: 今天刚好碰到super函数的问题，特来观览
super()函数的使用
Kamen Black君: 不断学习，共同进步。今天正好碰到关于super函数的问题，特来观览。
Rust 中的 mod (模块)
xiaodong.Lin: “mod 还可以把 B 模块引入到 A 模块中。如上述代.... ” 这个我测试了，不行

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。