scrapy下载不了图片，提示403错误

最新推荐文章于 2023-01-08 21:13:30 发布

kjing

最新推荐文章于 2023-01-08 21:13:30 发布

阅读量977

点赞数 1

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kjing/article/details/109066936

版权

在使用Scrapy爬取网站图片时遇到403错误，可能原因是网站反爬策略或headers设置不当。解决方案包括设置User-Agent、Referer、Cookie等，以及正确处理DEFAULT_REQUEST_HEADERS与自定义headers的关系。通过调整settings.py和pipelines.py中相关配置，成功解决douban电影Top250图片下载问题。

摘要由CSDN通过智能技术生成

问题：图片链接在浏览器打开没问题，但是在代码里面就是下载不了数据，提示403错误

可能原因：

原因一：抓取的网站有反爬虫机制，需要设置User-Agent，Referer，Cookie，时间间隔之类的，网上大部分文章也是这样说。

原因二：headers设置问题，这也是我遇到的问题，重点来了，原来ImagePipeline的headers是用settings里面的DEFAULT_REQUEST_HEADERS默认值为基础再叠加上自己设置的headers，也就是说你不止在下载图片的pipeline里面设置好了headers就行，你还要考虑到DEFAULT_REQUEST_HEADERS里面的设置，试了大半天才知道原因，一般DEFAULT_REQUEST_HEADERS里面只放User-Agent，然后在调用的时候根据需要去修改headers。

用来抓取douban练习的：https://movie.douban.com/top250

关键代码如下：

settings.py

注意图片下载路径只能用IMAGES_STORE，不能自己定义，不然图片下载对应的pipeline不会被激活，然后也下载不了图片。

IMAGES_EXPIRES = 30 # 30天内不重复抓取

import os


DEFAULT_REQUEST_HEADERS = {

'User-Agent': '

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。