爬虫:网站三次请求获取频道内容

声明
本文章中所有内容仅供学习交流使用,不用于其他任何目的,不提供完整代码,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关!
本文章未经许可禁止转载,禁止任何修改后二次传播,擅自使用本文讲解的技术而导致的任何意外,作者均不负责,若有侵权,请联系作者立即删除!

一、抓包

url = 'aHR0cDovL3d3dy55amZ3LmNuLw=='

从下图中可以看出,打开网页请求了三次,前两次在response中并不返回网页内容。

在这里插入图片描述

二、代码模仿第一次请求返回

<html><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><meta http-equiv="pragma" content="no-cache" /><meta http-equiv="cache-control" content="no-store" /><meta http-equiv="Connection" content="Close" /><script>function JumpSelf(){	self.location="/?WebShieldSessionVerify=25t9Mw1vzkt4jgGTLwaV";}</script><script>setTimeout("JumpSelf()",700);</script></head><body></body></html>

由返回的代码看出,需设置url:

url2 = url + '?WebShieldSessionVerify=25t9Mw1vzkt4jgGTLwaV'

进行第二次请求,返回:

<html><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><meta http-equiv="pragma" content="no-cache" /><meta http-equiv="cache-control" content="no-store" /><meta http-equiv="Connection" content="Close" /><script>function JumpSelf(){	self.location="/";}</script><script>setTimeout("JumpSelf()",700);</script></head><body></body></html>

对url进行第三次请求,即可返回正文。

ps:不需关注cookie中的JSESSIONID参数;如果直接模拟第三个返回数据的请求,有时候能正常返回,有时不能,与proxy无关。

三、类似的网站

1. url: aHR0cHM6Ly9tcW15LnlnY3EuY29tLmNuL2NvbnRlbnRfMjMxMTI0OS5odG1s
  1. 抓包

在这里插入图片描述

  1. 有时候抓到的包不是这样,直接就可以请求到,需添加代理才出现这样的情况:三次请求获取到正文。
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Xい

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值