http状态码521——记一次网页爬取

前段时间写了一个各应用市场某款应用的定时爬取任务,收集应用的下载量、评价、评分等信息然后报表展现,之前一直运行正常,前两天相关人员反馈数据出现异常,第一感觉肯定是该应用市场的网页结构发生变化了。

在本地运行数据爬取任务,发现确实有个应用市场报521错误,这个错误没见过啊,开始网上各种搜,发现别人说的貌似跟我的情况不一样,没办法只能自己摸索了。

于是把资源路径直接拿出来在浏览器里面访问,居然没问题!我想是不是刚才对方的服务器挂了这会又好了,立马又把爬虫运行了一遍,结果发现是自己意淫了。。。没办法,只能F12打开开发者工具——网络,然后重新访问,http状态码200,没什么问题啊,一切正常,我就纳闷了,为什么浏览器正常、爬虫却不行,难道是服务端做了什么针对非浏览器访问的限制,顿时眼前一亮,脑海中蹦出一个关键字“cookies",然后将请求header里的参数拿来各种试,没一点效果,感觉进入了死胡同,怎么也找不着出路。。。

自我安慰着,换个浏览器试试吧。。。这一换果然换出了问题,让我发现了浏览器地址栏貌似有变化,赶紧打开fiddler,清空缓存重新访问,哈哈,终于让我逮到了,它居然请求了3次,第二次还在地址后面加上了一个参数!!第一次状态521,第二次状态302,第三次状态200并成功返回了页面,到此感觉终于有了点眉目。

于是开始分析每一次的请求,第一次访问地址没做任何修饰先排除,但是第二次请求的参数从哪来的呢(本人是做后端开发,对前端一知半解)?开始在第一次返回的header里面各种找,没发现异常,这怎么可能!想不通啊!点着点着发现一段js脚本,还是各种字符各种运算符杂乱无章,难道是这段脚本有问题?于是将此脚本摘出,模拟运行,终于得到了跳转链接!

此时所有的问题都迎刃而解。。。

 

 

 

转载于:https://my.oschina.net/u/2551642/blog/654732

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值