爬虫访问重定向之前的页面

访问某些网页时会先进行页面跳转,再到真实目标页面。跳转页面的异常是302或301,同时该页面会给个新的Location变量,指向真实目标页面。但是如果想获得Location变量,则跳到目标页面后就无法再获得Location,因此必须在响应302页面上,尚未跳转时获得Location变量。

控制跳转用urllib比较麻烦,大概需要重写HttpRedirectHandler类,因此使用requests包。
requests的get或post访问函数中有allow_redirects参数,默认为True,改为False后访问遇到302则停止,返回302页面的响应,其中就有Location变量。
核心代码为:
response=requests.get(url,allow_redirects=False)
print(response.headers.get(‘Location’))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值