html状态码521,python爬虫 处理521状态码

在爬虫过程中遇到HTML状态码521,通常表示服务器无法连接。本文介绍了如何通过分析浏览器的二次访问机制,模拟生成cookie值,从而解决521状态码问题。主要步骤包括:获取JS代码,执行JS获取cookie,构造新的headers并进行请求。
摘要由CSDN通过智能技术生成

在抓取数据的时候往往可以通过状态码来判断返回结果,今天在抓取数据的时候碰到了以前没有碰到过得状态码521,输出它的爬取内容(text),发现是一些js代码。一起探讨一下如何处理521状态码。

用charles抓包的时候,发现浏览器对于同一网页连续访问了两次,第一次的访问状态码为521,第二次为200(正常访问)。看来网页加了反爬虫机制,需要两次访问才可返回正常网页。

7d64f0c348a3e076ff1350858c4ae1c5.png

1986bd451ffbb011973e7cdb876ca65f.png

4ad27a32e8a6ea3dbbc3f42d7ee3310c.png

7597348b8ec80eedb9c30557baf24e52.png

通过对比两次请求,我们发现第二次访问带了新的cookie值。再考虑上面程序对爬取结果的输出为js代码,可以考虑其操作过程为࿱

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值