js逆向 webpack_JavaScript 逆向爬取实战

本文通过一个实际案例,详细介绍了如何进行JavaScript逆向,特别是针对使用Webpack和javascript-obfuscator混淆的网站。文章展示了如何寻找Ajax入口,分析加密逻辑,最终实现Python爬取加密列表页的过程。主要内容包括:列表页Ajax接口和加密逻辑的寻找,以及如何在遇到加密参数时构造请求。
摘要由CSDN通过智能技术生成

↑ 关注 + 星标 ~ 有趣的不像个技术号,后台回复【大礼包】送你2TPython自学资料

好消息:Python学习交流群,已经建立,猛戳加入

519b876f404b8102def7e3b8f490792b.png

阅读本文大概需要 25 分钟。

在上一节总结一些网站加密和混淆技术中,我们介绍了网页防护技术,包括接口加密和 JavaScript 压缩、加密和混淆。这就引出了一个问题,如果我们碰到了这样的网站,那该怎么去分析和爬取呢?

本节我们就通过一个案例来介绍一下这种网站的分析思路,本节介绍的这个案例网站不仅在 API 接口层有加密,而且前端 JavaScript 也带有压缩和混淆,其前端压缩打包工具是使用了现在流行的 Webpack,混淆工具是使用了 javascript-obfuscator,这二者结合结合起来,前端的代码会变得难以阅读和分析。

如果我们不使用 Selenium 或 Pyppeteer 等工具来模拟浏览器的形式爬取的话,要想直接从接口层面上获取数据,基本上我们就要一点点调试分析 JavaScript 的调用逻辑、堆栈调用关系来整个弄清楚网站加密的实现方法了,我们可以称之为这个过程叫 JavaScript 逆向。这些接口的加密参数往往都是一些加密算法或编码的组合,完全搞明白其中的逻辑之后,我们就能把这个算法用 Python 模拟出来,从而实现接口的请求了。

案例介绍

案例的地址为:https://dynamic6.scrape.cuiqingcai.com/,页面如图所示。

15e8ac193ef23279db3aee75c6aa45f3.png

初看之下并没有什么特殊的,但仔细观察可以发现其 Ajax 请求接口和每部电影的 URL 都包含了加密参数。

比如我们点击任意一部电影,观察一下 URL 的变化,如图所示。

b37d809dbf42a555d917b8936da6d7f4.png

这里我们可以看到详情页的 URL 和包含了一个长字符串,看似是一个 Base64 编码的内容。

那么接下来直接看看 Ajax 的请求,我们从列表页的第 1 页到第 10 页依次点一下,观察一下 Ajax 请求是怎样的,如图所示。

6bfce3a678bde9e387231d696357e5a3.png

可以看到 Ajax 接口的 URL 里面多了一个 token,而且不同的页码这个 token 还是不一样的,这个 token 同样看似是一个 Base64 编码的字符串。

另外更困难的是,这个接口还是有时效性的,如果我们把 Ajax 接口 URL 直接复制下来,短期内是可以访问的,但是过段时间之后就无法访问了,会直接返回 401 状态码。

接下来我们再看下列表页的返回结果,比如我们打开第一个请求,看看第一部电影数据的返回结果,如图所示。

8cb1663124d6fa7f3b9b8227031d2a29.png

这里我们把看似是第一部电影的返回结果全展开了,但是刚才我们观察到第一步电影的 URL 的链接却为 https://dynamic6.scrape.cuiqingcai.com/detail/ZWYzNCN0ZXVxMGJ0dWEjKC01N3cxcTVvNS0takA5OHh5Z2ltbHlmeHMqLSFpLTAtbWIx,看起来是 Base64 编码,我们解码一下,结果为 ef34#teuq0btua#(-57w1q5o5--j@98xygimlyfxs*-!i-0-mb1,但是看起来似乎还是毫无规律,这个解码后的结果又是怎么来的呢?返回结果里面也并不包含这个字符串,那这又是怎么构造的呢?

再然后,这仅仅是某一个详情页页面的 URL,其真实数据是通过 Ajax 加载的,那么 Ajax 请求又是怎样的呢,我们再观察下,如图所示。

648037da49ef417e5ece409853b3f399.png 好,这里我们发现其 A jax 接口除了包含刚才所说的 URL 中携带的字符串,又多了一个 token,同样也是类似 Base64 编码的内容。

那么总结下来这个网站就有如下特点:

•列表页的 Ajax 接口参数带有加密的 token•详情页的 URL 带有加密 id•详情页的 Ajax 接口参数带有加密 id 和加密 token

那如果我们要想通过接口的形式来爬取,必须要把这些加密 id 和 token 构造出来才行,而且必须要一步步来,首先我们要构造出列表页 Ajax 接口的 token 参数,然后才能获取每部电影的数据信息,然后根据数据信息构造出加密 id 和 token。

OK,那到现在为止我们就知道了这个网站接口的加密情况了,我们下一步就是去找这个加密实现逻辑了。

由于是网页,所以其加密逻辑一定藏在前端代码里面,但上节课我们也说了,前端为了保护其接口加密逻辑不被轻易分析出来,会采取压缩、混淆的一些方式来加大分析的难度。

好,那么我们 就来看看这个网站的源代码和 JavaScript 文件是怎样的吧。

首先看看网站源代码,我们在网站上点击右键,弹出选项菜单,然后点击「查看源代码」,可以看到结果如图所示。<

为了避免违反规则3,我将只介绍如何使用webpack进行打包和优化,而不会涉及逆向webpack的方法。 Webpack是一个现代JavaScript应用程序的静态模块打包器。将应用程序的所有依赖项视为模块,并将它们打包成一个或多个静态资源。Webpack还可以通过各种插件和加载器来优化和转换这些资源。 以下是使用Webpack进行打包和优化的一些方法: 1.安装WebpackWebpack CLI 在使用Webpack之前,需要先全局安装Webpack CLI脚手架,并在项目中安装Webpack。 ```shell npm install webpack-cli -g npm install webpack --save-dev ``` 2.创建Webpack配置文件 在项目根目录下创建一个名为webpack.config.js的文件,并在其中定义Webpack的配置选项。 ```javascript const path = require('path'); module.exports = { entry: './src/index.js', output: { filename: 'bundle.js', path: path.resolve(__dirname, 'dist') } }; ``` 上述配置文件指定了入口文件为src/index.js,输出文件为dist/bundle.js。 3.使用Webpack加载器 Webpack加载器可以将各种类型的文件转换为JavaScript模块,以便Webpack可以将它们打包到应用程序中。例如,使用Babel加载器可以将ES6代码转换为ES5代码。 ```javascript module.exports = { // ... module: { rules: [ { test: /\.js$/, exclude: /node_modules/, use: { loader: 'babel-loader' } } ] } }; ``` 上述配置文件指定了使用Babel加载器来转换所有.js文件。 4.使用Webpack插件 Webpack插件可以用于优化和转换打包后的代码。例如,使用UglifyJS插件可以压缩JavaScript代码。 ```javascript const UglifyJSPlugin = require('uglifyjs-webpack-plugin'); module.exports = { // ... plugins: [ new UglifyJSPlugin() ] }; ``` 上述配置文件指定了使用UglifyJS插件来压缩打包后的代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值