爬虫：网站三次请求获取频道内容

Xい

已于 2024-07-05 13:51:58 修改

阅读量290

点赞数 2

文章标签： javascript python 爬虫

于 2023-10-07 17:17:26 首次发布

本文链接：https://blog.csdn.net/qq_43695167/article/details/122689895

版权

声明
本文章中所有内容仅供学习交流使用，不用于其他任何目的，不提供完整代码，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！
本文章未经许可禁止转载，禁止任何修改后二次传播，擅自使用本文讲解的技术而导致的任何意外，作者均不负责，若有侵权，请联系作者立即删除！

一、抓包

url = 'aHR0cDovL3d3dy55amZ3LmNuLw=='

从下图中可以看出，打开网页请求了三次，前两次在response中并不返回网页内容。

在这里插入图片描述

二、代码模仿第一次请求返回

<html><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><meta http-equiv="pragma" content="no-cache" /><meta http-equiv="cache-control" content="no-store" /><meta http-equiv="Connection" content="Close" /><script>function JumpSelf(){	self.location="/?WebShieldSessionVerify=25t9Mw1vzkt4jgGTLwaV";}</script><script>setTimeout("JumpSelf()",700);</script></head><body></body></html>

由返回的代码看出，需设置url：

url2 = url + '?WebShieldSessionVerify=25t9Mw1vzkt4jgGTLwaV'

进行第二次请求，返回：

<html><head><meta http-equiv="Content-Type" content="text/html; charset=gb2312" /><meta http-equiv="pragma" content="no-cache" /><meta http-equiv="cache-control" content="no-store" /><meta http-equiv="Connection" content="Close" /><script>function JumpSelf(){	self.location="/";}</script><script>setTimeout("JumpSelf()",700);</script></head><body></body></html>

对url进行第三次请求，即可返回正文。

ps：不需关注cookie中的JSESSIONID参数；如果直接模拟第三个返回数据的请求，有时候能正常返回，有时不能，与proxy无关。

三、类似的网站

1. url: aHR0cHM6Ly9tcW15LnlnY3EuY29tLmNuL2NvbnRlbnRfMjMxMTI0OS5odG1s

抓包

在这里插入图片描述

有时候抓到的包不是这样，直接就可以请求到，需添加代理才出现这样的情况：三次请求获取到正文。

Xい

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫：网站三次请求获取频道内容

打开网页请求了三次，前两次在response中并不返回网页内容。对url进行第三次请求，即可返回正文。
复制链接

扫一扫