一招搞定重定向网页

最新推荐文章于 2024-03-31 11:34:01 发布

业务岗程序猿

最新推荐文章于 2024-03-31 11:34:01 发布

阅读量2.2k

点赞数 1

分类专栏： py爬虫之路文章标签： python

本文链接：https://blog.csdn.net/tuoshao123/article/details/105263164

版权

py爬虫之路专栏收录该内容

6 篇文章 0 订阅

订阅专栏

重定向网页爬取策略

文章目录

重定向网页爬取策略

1.网页重定向的表现

HTTP 302 Found 重定向状态码表明请求的资源被暂时的移动到了由Location 头部指定的 URL 上。浏览器会重定向到这个URL，但是搜索引擎不会对该资源的链接进行更新，将会再次请求location字段包含的url，如下图网页响应数据：
在这里插入图片描述紧接请求location字段的url

2.网页重定向的途径

2.1 服务器端重定向

服务器端重定向在服务器端完成，一般爬虫可以自适应，不需要做特别的处理，如相应代码302(可以通过reponse对象中的url、status_code属性来判断)，一般重定向后的url在数据包头部的Location字段中，需要获取Location字段的值。

2.2 meta refresh标签实现

网页将实现跳转，爬虫直接获取meta标签的content属性即可

<html>
    <head>
        <meta http-equiv="refresh" content="url=http://www.baidu.com">
    </head>
</html>

2.3 JS重定向

这种通过js代码加载的方式，一般找到包含内容的代码段即可找到url

<scriptlanguage=javascript>window.location.href='http://www.baidu.com'</script>

3.服务器端重定向网页爬取方案

由于服务器端重定向网页解决相对更复杂，于是主要讲述这种情形，网站url：http://61.187.179.66:8924

1.网页规则：第一个网页登录成功之后，响应状态为302，随后通过get请求了另一个网页(状态也是302，url就是第一个网页response头部Location字段包含的url)，随后才访问有效的网页。
在这里插入图片描述 2.分析网页之间的联系：通过分析，有效网页的cookie与前两次重定向网页的cookie有很大关联，有效网页的cookie=初始网页的cookie+重定向网页应答数据中的set-cookie字段
3.重点是如何获取Location字段的值呢？
Location是数据包的头部数据，requests类库提供了方法访问数据包头，如下

histroy=respose.history
a=histroy[0].headers
print(a['Location'])

下图为获取的Location字段内容：
在这里插入图片描述 4.重点已经讲述的差不多了，写爬虫时记得请求时带上相应的cookie因为这样才能辨别是否是同一次会话，由于目标网页是咱们学校新教务，于是就不方便上代码了。

业务岗程序猿

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
一招搞定重定向网页

重定向网页爬取策略文章目录重定向网页爬取策略1.网页重定向的表现2.网页重定向的途径3.1.网页重定向的表现HTTP 302 Found 重定向状态码表明请求的资源被暂时的移动到了由Location 头部指定的 URL 上。浏览器会重定向到这个URL，但是搜索引擎不会对该资源的链接进行更新，如下图网页响应数据：2.网页重定向的途径3....
复制链接

扫一扫