js破解历程
- 前言
- 技能点
- 界面概况
- 静态网页动态网页
- 页面解析
- step1: 找参数step2:分析js函数step3:分析参数step4: 校验step5:转为python代码
- 编写爬虫
很多人学习python,不知道从何学起。
很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。
很多已经做案例的人,却不知道如何去学习更加高深的知识。
那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤
QQ群:623406465
前言
网络爬虫的大障碍,就是各种加密。这其中包过登录的验证码以及加密。js混淆、js参数加密等等。其实以前也就了解过js加密。但是没有深入研究,借着这次实践研究了一下网易云音乐的加密方式。
博主通过网易云音乐评论加密的实例来做个学习过程的分析和分享。
如果有问题或者不懂的地方可以关注我的微信公众号(bigsai),联系我。
技能点
- 前端:js知识(比较重要)、谷歌浏览器debug、抓包、打断点调试能力(必须)。以及js各种加密函数(了解).
- python:基础的请求requests。Crypto.Cipher加密解密模块。
- 其他:postman(模拟请求使用),良好的思维能力和分析能力。(加密算法有些乱),还有一点就是js加密转python的代码实现。
界面概况
静态网页
对于一般的url随着页面的变化而变化的页面,网易云还是有的,你只需要抓取网页进行分析即可。
动态网页
但随着前后端分离的流行,以及数据分离好处明显。越来越多的数据采用ajax渲染。而网易云的评论即使如此。
在前后端分离刚火,那时很多网站对借口并没有太大的防护措施。就使得很多网站轻松获取结果。至今也有很多这样的借口存在,这种网站爬去就是傻瓜式爬取。
然而随着前段技术的发展,接口也变的越来越棘手。就拿网易云的评论来说:它的参数就让人很懵逼。
这一串串数字到底是啥。很多人见到这样的数据就会选择放弃。那么让我为你解开它什么的面纱。
页面解析
step1: 找参数
你可以看的到,它的参数有两个,一个是params,一个是encSecKey并且都是经过加密的,我们就要分析它的源头。F12打开source搜索encSckey.
'在查找这个js内部的encSecKey,发现原来在这里,经过断点调试发现这里就是最终参数的结果。
step2:分析js函数
这个js有4w多行,如何能在4w多行js中找到有用的信息,然后理清楚这里的思路呢?