目标网站返回的数据是经过加密的,原数据类似于这种:
5OOfXVuawJ5XxotX22Q1M1/1OE8+SgxzFjK75q99wSfvO46a9j5ysLP1f32x59HBBZK2JoJ/Y51QlmzyGNvGJ1XtOo8mBANrEvqOM6p6bDABmcuWg7SdFwyGjPzVGvZYC/BgbYHuakpGd2PTJxdy5PLURyYgU3Mw==
并且前端调试会卡在debugger,然后直接返回到首页,无法进入断点调试。
断点调试的问题很好解决,先关闭断点调试。
然后找准目标代码位置,在请求接口前把断点调试打开,注意,速度要快点,我调试的这个网站如果速度不够快就会迅速跳转到首页。
目标网站的应该是使用的前后端分离的架构,前端是vue写的,代码有经过混淆,上百万行看着别扭的命名看起来很头疼,而且每个变量的名字,函数的名字,都是通过json对象的方式去找,全是类似这种:
找的很痛苦,只有通过断点和调用栈不断的去找目标代码的位置。
尤其是解密的代码,调用栈太长了,我水平不够,整整看了2天,才从这种代码中找出了它主要的解密方式,用个是DES解密,需要找到key和iv,key是接口有返回的,但iv对方网站就隐藏的很好,除了这个iv,其他的问题都解决了,加密字符串也成功解密。
但确实耐不住这个iv为什么就是拿不到?问题出在哪里?
在登录的状态下,我追溯到了它的源头,在localStorage中,但是什么时候存入localStorage中呢?我找了很久没有看到调用。
后来我把localStorage中的那个key删掉,我又找了很久,还是没有看到值的设置。
但是突然有一个动作,让我感觉自己挺傻的,难道这个iv就不能是请求返回的吗?把DevTools切换到网络
,果然看到了一个请求,清清楚楚明明白白而且没有加密的key
和iv
返回,那一刻我突然觉得自己果然太年轻,花了那么多时间去找iv是怎么生成的,但不知道人家压根是直接从服务器请求返回的。
后来的事情就顺理成章、水到渠成的完成了全部的解密。
最后再拿下登录返回的token,准备一台手机,自动接收验证码,然后启一个接受短信的服务存到redis,至此登录、请求接口、解密数据全部完成。
从我这个不专业的爬虫工程师来看,爬虫工作是比较看耐心的,尤其是登录和其他的破解环节,一定要相信,从理论上来破的东西,它确实就能破,但确实太考验耐心了。