项目场景:
爬取马蜂窝里的所有国内城市的景点(目前发现城市的id大部分是5位数,所以尝试了所有的五位数)
问题描述:
马蜂窝在进入到进入到景点详情页的时候,使用了加速乐cookie反爬,需要逆向出cookie.
- 进入到景点详情页时,第一次请求里的响应体里面会返回一个cookie字段,返回的响应文本里面也会返回一个cookie字段,把这两个组成cookie,更行请求头.
- 带上第一步中的请求头在一次请求,会发现此时的返回文本还是一段js代码,逆向出来之后发现需要更新第一步中的cookie字段.此时这个cookie字段才是真正的可以放在请求头中的去请求回真实数据的cookie.
原因分析:
此时遇到的问题就是cookie的第二次逆向加入了混淆,所以逆向难度比较大.
解决方案:
现在的解决方案有两个,第一个就是直接把cookie写死,倘若后面cookie失效了,可以换一个.第二个就是读取本地谷歌浏览器保存的cookie数值,假如cookie过期,刷新浏览器即可.