马蜂窝爬虫

本文介绍了在爬取马蜂窝国内城市景点时遇到的反爬问题。当进入景点详情页,需要逆向解析两次cookie来获取有效请求头。首次请求返回的cookie与响应文本中返回的cookie组合,再次请求后得到的js代码需要进一步逆向以获取正确cookie。由于第二次逆向涉及混淆,增加了难度。提出的解决方案包括硬编码cookie或者利用本地Chrome浏览器的cookie,后者在cookie过期时只需刷新浏览器。
摘要由CSDN通过智能技术生成

项目场景:

 

爬取马蜂窝里的所有国内城市的景点(目前发现城市的id大部分是5位数,所以尝试了所有的五位数)


问题描述:

 

马蜂窝在进入到进入到景点详情页的时候,使用了加速乐cookie反爬,需要逆向出cookie.

  1. 进入到景点详情页时,第一次请求里的响应体里面会返回一个cookie字段,返回的响应文本里面也会返回一个cookie字段,把这两个组成cookie,更行请求头.
  2. 带上第一步中的请求头在一次请求,会发现此时的返回文本还是一段js代码,逆向出来之后发现需要更新第一步中的cookie字段.此时这个cookie字段才是真正的可以放在请求头中的去请求回真实数据的cookie.

原因分析:

此时遇到的问题就是cookie的第二次逆向加入了混淆,所以逆向难度比较大.


解决方案:

现在的解决方案有两个,第一个就是直接把cookie写死,倘若后面cookie失效了,可以换一个.第二个就是读取本地谷歌浏览器保存的cookie数值,假如cookie过期,刷新浏览器即可.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值