网易云歌曲评论抓取


这次的任务是获取网易云音乐下面的评论,涉及的知识比上次更多,包括Js逆向的知识。
使用的python包:

execjs(运行Js文件,通过pip install PyExecJS安装)
requests(发起请求)
json(json数据转换)

步骤

https://music.163.com/#

1.找到一首歌曲

https://music.163.com/#/song?id=404465743
在这里插入图片描述

2.按下F12键打开开发者模式,对其进行抓包

刷新网页进行抓包,结果如下:
在这里插入图片描述

3.查找获得评论数据的接口

方法一
点击这些接口,然后点击预览,预览里面是接口的返回数据,我们看下是否有评论数据。
在这里插入图片描述

方法二
在搜索栏搜索评论信息,找到接口,这个比上面一个一个接口分析要快。但注意如果页面加密了就不行了。
在这里插入图片描述
由此我们得到网易云评论数据的接口是:
https://music.163.com/weapi/comment/resource/comments/get?csrf_token=
这里csrf_token是登录后才会有信息的。

4.对获得评论数据接口进行分析

(1)点击负载,可以看到接口的参数是进行了加密的,那我们需要找到它是如何进行加密的。
在这里插入图片描述

(2)为了找到加密过程,我们点击发起程序部分。
在这里插入图片描述

这是一个调用堆栈,它的执行顺序是从下往上执行。
(3)我们点击第一个程序,也是最后才执行的,出现如下结果:
在这里插入图片描述

这里的send函数是发送信息给服务器的作用,我们需要的加密数据也通过这个函数发送,我们对它进行进一步分析。
(4)给send函数位置打一个断点,找到目标接口调用这个函数的位置。
https://music.163.com/weapi/comment/resource/comments/get?csrf_token=

如下图所示,我们需要的是url应该是get?csrf_token=,而不是下图所示的内容。
在这里插入图片描述

继续进行debug,直到看到我们需要的接口。
在这里插入图片描述

(5)对目标接口位置进行分析。
通过该函数后参数被加密了,我们需要找到它没加密前是在哪个位置。
在这里插入图片描述

第(4)步调试结束的位置,下面有一个调用堆栈,就是该接口调用的一些文件,也是从下往上依次执行,我们对其进行分析,找到没有加密的数据最后存在的地方。
在这里插入图片描述

我们从上往下依次寻找,最后找到这个位置,点击该堆栈:
在这里插入图片描述

因此数据的形式为:

{
   
    "rid": "R_SO_4_404465743",
    "threadId": "R_SO_4_404465743",
    "pageNo": "1",
    "pageSize": "20",
    "cursor": "-1",
    "offset": "0",
    "orderType": "1",
    "csrf_token": ""
}

(6)找到数据后,分析它是如何进行加密的。
打开第(5)步找到的文件并打上断点,如图所示:
在这里插入图片描述
在这里插入图片描述

然后刷新界面进行调试,注意接口需要是get才行:
在这里插入图片描述

然后继续运行后面的语句,发现数据加密了。
在这里插入图片描述
在这里插入图片描述

由此我们基本可以得到加密的语句为:
var bKL0x = window.asrsea(JSON.stringify(i1x), bvj1x([“流泪”, “强”]), bvj1x(Rj3x.md), bvj1x([“爱心”, “女孩”, “惊恐”, “大笑”]));

那我们之后需要做的就是实现跟这个函数类似的功能。

5.构建加密函数

找到第4步的window.asrsea函数,通过在文件里面按下Ctrl+F键,然后进行搜索。
在这里插入图片描述

由此可以得到加密函数的整体框架

!function() {
   
    function a(a) {
   
        var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";
        for (d = 0; a > d; d += 1)
            e = Math.random() * b.length,
            e = Math.floor(e),
            c += b.charAt(e);
        return c
    }
    function b(a, b) {
   
        var c = CryptoJS.enc.Utf8.parse(b)
          , d = CryptoJS.enc.Utf8.parse("0102030405060708")
          , e = CryptoJS.enc.Utf8.parse(a)
          , f = CryptoJS.AES.encrypt(e, c, {
   
            iv: d,
            mode: CryptoJS.mode.CBC
        });
        return f.toString()
    }
    function c(a, b, c) {
   
        var d, e;
        return setMaxDigits(131),
        d = new RSAKeyPair(b,"",c),
        e = encryptedString(d, a)
    }
    function d(d, e, f, g) {
   
        var h = {
   }
          , i = a(16);
        return h.encText = b(d, g),
        h.encText = b(h.encText, i),
        h.encSecKey = c(i, e, f),
        h
    }
    function e(a, b, d, e) {
   
        var f = {
   };
        return f.encText = c(a + e, b, d),
        f
    }
    window.asrsea = d,
    window.ecnonasr = e
}();

对于上述加密函数的实现,有两种方式:

使用js实现,通过该文件中的函数实现加密功能,遇到缺少的函数继续在该文件中查找。补齐后通过python的库函数调用js文件实现加密功能。
使用python实现,通过分析加密函数的逻辑,实现相同的功能。
在说明下面内容之前,先看下d函数,有4个参数,再看下调用它的地方:

window.asrsea(JSON.stringify(i0x), bsg8Y(["流泪", "强"]), bsg8Y
  • 23
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值