一招搞定重定向网页

重定向网页爬取策略

1.网页重定向的表现

HTTP 302 Found 重定向状态码表明请求的资源被暂时的移动到了由Location 头部指定的 URL 上。浏览器会重定向到这个URL, 但是搜索引擎不会对该资源的链接进行更新,将会再次请求location字段包含的url,如下图网页响应数据:
在这里插入图片描述紧接请求location字段的url
在这里插入图片描述

2.网页重定向的途径

2.1 服务器端重定向

服务器端重定向在服务器端完成,一般爬虫可以自适应,不需要做特别的处理,如相应代码302(可以通过reponse对象中的url、status_code属性来判断),一般重定向后的url在数据包头部的Location字段中,需要获取Location字段的值。

2.2 meta refresh标签实现

网页将实现跳转,爬虫直接获取meta标签的content属性即可

<html>
    <head>
        <meta http-equiv="refresh" content="url=http://www.baidu.com">
    </head>
</html>

2.3 JS重定向

这种通过js代码加载的方式,一般找到包含内容的代码段即可找到url

<scriptlanguage=javascript>window.location.href='http://www.baidu.com'</script>

3.服务器端重定向网页爬取方案

由于服务器端重定向网页解决相对更复杂,于是主要讲述这种情形,网站url:http://61.187.179.66:8924

1.网页规则:第一个网页登录成功之后,响应状态为302,随后通过get请求了另一个网页(状态也是302,url就是第一个网页response头部Location字段包含的url),随后才访问有效的网页。
在这里插入图片描述在这里插入图片描述2.分析网页之间的联系:通过分析,有效网页的cookie与前两次重定向网页的cookie有很大关联,有效网页的cookie=初始网页的cookie+重定向网页应答数据中的set-cookie字段
在这里插入图片描述在这里插入图片描述在这里插入图片描述3.重点是如何获取Location字段的值呢?
Location是数据包的头部数据,requests类库提供了方法访问数据包头,如下

histroy=respose.history
a=histroy[0].headers
print(a['Location'])

下图为获取的Location字段内容:
在这里插入图片描述4.重点已经讲述的差不多了,写爬虫时记得请求时带上相应的cookie因为这样才能辨别是否是同一次会话,由于目标网页是咱们学校新教务,于是就不方便上代码了。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值