python scrapy爬虫遇见301_scrapy爬虫返回302，301，解决方法

最新推荐文章于 2024-04-24 16:55:30 发布

weixin_39583655

最新推荐文章于 2024-04-24 16:55:30 发布

阅读量527

点赞数

文章标签： python scrapy爬虫遇见301

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39583655/article/details/112941530

版权

def demo():

headers = {'Accept':'xxxx',

'Accept-Encoding':'xxxx',

'Accept-Language':'xxxx',

'Connection':'xxxx',

'Host':'xxxx',

'Upgrade-Insecure-Requests':'x',

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

url = 'https:xxxxx.com'

html = requests.get(url, headers=headers, allow_redirects=False)

return html.headers['Location']

allow_redirects=False的意义为拒绝默认的301/302重定向从而可以通过html.headers[‘Location’]拿到重定向的URL。

这是scrapy中解决问题方法1：

在yield里面加上dont_filter=True，解决了这个问题，dont_filter的意思是，如果已经爬取过得url，也就是没有出现问题的url，

自然而然出现问题的url将会再次被传递，这样也就解决了重定向问题。

yield scrapy.Request(url=listUrl[i],callback=self.get_content,meta={'item':item},method='GET',dont_filter=True)

有时候爬取图片获取不到，返回302，我们可以在配置文件settings.py

里面修改重定向：如下：

值加这一行代码：

MEDIA_ALLOW_REDIRECTS =True

ITEM_PIPELINES ={'scrapy.pipelines.images.ImagesPipeline':1,'Moni.pipelines.MoniPipeline': 300,

}

MEDIA_ALLOW_REDIRECTS=True #只有这一行代码，其他的是为了方便查找，加上这一行基本上就能解决了

IMAGES_STORE = './images'

weixin_39583655

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python scrapy爬虫遇见301_scrapy爬虫返回302，301，解决方法

def demo():headers = {'Accept':'xxxx','Accept-Encoding':'xxxx','Accept-Language':'xxxx','Connection':'xxxx','Host':'xxxx','Upgrade-Insecure-Requests':'x','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Wi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。