http状态码521——记一次网页爬取

最新推荐文章于 2024-06-23 16:41:56 发布

chunmou1971

最新推荐文章于 2024-06-23 16:41:56 发布

阅读量5.2k

点赞数 1

文章标签：爬虫后端

原文链接：https://my.oschina.net/u/2551642/blog/654732

版权

前段时间写了一个各应用市场某款应用的定时爬取任务，收集应用的下载量、评价、评分等信息然后报表展现，之前一直运行正常，前两天相关人员反馈数据出现异常，第一感觉肯定是该应用市场的网页结构发生变化了。

在本地运行数据爬取任务，发现确实有个应用市场报521错误，这个错误没见过啊，开始网上各种搜，发现别人说的貌似跟我的情况不一样，没办法只能自己摸索了。

于是把资源路径直接拿出来在浏览器里面访问，居然没问题！我想是不是刚才对方的服务器挂了这会又好了，立马又把爬虫运行了一遍，结果发现是自己意淫了。。。没办法，只能F12打开开发者工具——网络，然后重新访问，http状态码200，没什么问题啊，一切正常，我就纳闷了，为什么浏览器正常、爬虫却不行，难道是服务端做了什么针对非浏览器访问的限制，顿时眼前一亮，脑海中蹦出一个关键字“cookies"，然后将请求header里的参数拿来各种试，没一点效果，感觉进入了死胡同，怎么也找不着出路。。。

自我安慰着，换个浏览器试试吧。。。这一换果然换出了问题，让我发现了浏览器地址栏貌似有变化，赶紧打开fiddler，清空缓存重新访问，哈哈，终于让我逮到了，它居然请求了3次，第二次还在地址后面加上了一个参数！！第一次状态521，第二次状态302，第三次状态200并成功返回了页面，到此感觉终于有了点眉目。

于是开始分析每一次的请求，第一次访问地址没做任何修饰先排除，但是第二次请求的参数从哪来的呢（本人是做后端开发，对前端一知半解）？开始在第一次返回的header里面各种找，没发现异常，这怎么可能！想不通啊！点着点着发现一段js脚本，还是各种字符各种运算符杂乱无章，难道是这段脚本有问题？于是将此脚本摘出，模拟运行，终于得到了跳转链接！

此时所有的问题都迎刃而解。。。

转载于:https://my.oschina.net/u/2551642/blog/654732

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
http状态码521——记一次网页爬取

前段时间写了一个各应用市场某款应用的定时爬取任务，收集应用的下载量、评价、评分等信息然后报表展现，之前一直运行正常，前两天相关人员反馈数据出现异常，第一感觉肯定是该应用市场的网页结构发生变化了。在本地运行数据爬取任务，发现确实有个应用市场报521错误，这个错误没见过啊，开始网上各种搜，发现...
复制链接

扫一扫

chunmou1971 CSDN认证博客专家 CSDN认证企业博客

码龄8年

0: 原创

-: 周排名

213万+: 总排名

5206: 访问

: 等级

1: 积分

0: 粉丝

1: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

http状态码521——记一次网页爬取 5206

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。