python 网易云音乐评论爬取3

参考链接:
解析网易云音乐的加密方式
https://www.jianshu.com/p/069e88181488

找到参数的加密方法

首先我们先看评论的加载方式,打开一首音乐的主页,然后打开开发工具的Network选项,点击评论的翻页按钮,可以看到第一个请求就是请求下一页的评论:
comment.png

我们分析一下这个请求,先看它的url,请求多次之后发现R_SO_4_在请求评论时是固定的,483671599则是歌曲的id,url还有一个参数csrf_token,看这个名字像是防止跨站攻击的,但是它一直是空的。然后就是POST里面的参数params和encSecKey,这两个参数是关键,接下来我们要重点分析它。
我们在开发工具对encSecKey进行全局搜索,发现它只出现在一个文件中:
search.png

点击搜索结果,打开文件并美化后发现,这2处地方,一个只是简单对结果赋值,params通过bAQ8I.encText而来,encSecKey通过bAQ8I.encSecKey而来,而另一个则是有具体函数调用,而这个就是我们的突破口。

function a(a) {
    var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789",
    c = "";
    for (d = 0; a > d; d += 1) e = Math.random() * b.length,
    e = Math.floor(e),
    c += b.charAt(e);
    return c
}
function b(a, b) {
    var c = CryptoJS.enc.Utf8.parse(b),
    d = CryptoJS.enc.Utf8.parse("0102030405060708"),
    e = CryptoJS.enc.Utf8.parse(a),
    f = CryptoJS.AES.encrypt(e, c, {
        iv: d,
        mode: CryptoJS.mode.CBC
    });
    return f.toString()
}
function c(a, b, c) {
    var d, e;
    return setMaxDigits(131),
    d = new RSAKeyPair(b, "", c),
    e = encryptedString(d, a)
}
function d(d, e, f, g) {
    var h = {},
    i = a(16);
    return h.encText = b(d, g),
    h.encText = b(h.encText, i),
    h.encSecKey = c(i, e, f),
    h
}

我们先简单分析一下这几个函数,可以看到最后的赋值是在d(d,e,f,g)这个函数内完成的,它首先调用了a(a),可以看出这个函数的作用是生成一个长度为16的随机字符串;然后encText这个参数通过2次调用b(a,b)完成,这个函数的作用是进行AES加密;最后encSecKey是调用c(i,e,f)完成,这个函数的作用是进行RSA加密。
通过上面的代码可以看出,params的生成需要d, g,i这3个参数,前2个是函数传进来的,最后一个是随机生成的。而encSecKey的生成则需要e, f,i这3个参数,前2个是函数传进来的,最后一个和前面相同。
所以理论上我们知道了d,e,f,g这4个参数就可以构造请求了,我们在d函数加断点,继续点击下一页,可以在断点处调试,看到传入的参数:
在这里插入图片描述
试了几次后我们发现,无论是同一会话的新请求,还是新会话中的请求,e,f,g的值都是不变的,所以可以初步断定这3个值是固定的,唯一有改变的就是d的值,所以我们只需要在请求时构造好就行了。

参数i的生成

只需要简单的生成16位随机字符串即可

import random
from string import ascii_letters, digits
_charset = ascii_letters + digits
def rand_char(num=16):
    return ''.join(random.choice(_charset) for _ in range(num))

params的生成

从代码可以看出,2次AES加密中,初始向量都是0102030405060708,加密模式都是CBC加密,不同的是第一次加密中,d作为message,g作为key来加密;第二次加密中,把第一次加密结果作为message,i作为key来加密。我们可以通过Crypto.Cipher中的AES实现,

import base64
from Crypto.Cipher import AES

def aes_encrypt(msg, key, iv='0102030405060708'):
    def padded(msg):
        pad = 16 - len(msg) % 16
        return msg + pad * chr(pad)
    msg = padded(msg)
    cryptor = AES.new(key, IV=iv, mode=AES.MODE_CBC)
    text = cryptor.encrypt(msg)
    text = base64.b64encode(text)
    return text
    
def gen_params(d, g, i):
    text = aes_encrypt(d, g)
    text = aes_encrypt(text, i)
    return text

encSecKey的生成

这个参数通过RSA算法生成,其中i作为message,e,f是加密时用到的参数。
在这里稍微解释一下RSA算法,算法选取2个很大的质数p,q,得到它们的乘积n,然后选取e,d满足e*d = 1 mod (p-1)(q-1),加密时text=(msge)%n,解密时msg=(textd)%n,在这个函数里e就相当于算法里的e,f相当于算法里的n。
还有一点需要注意,encSecKey是一个完全由16进制数组成,但是在加密模块中一般都是返回byte流,然后通过base64编码(长度是原来的4/3),而像这种的应该是把byte流通过16进制表示出来(长度是原来的2倍)。
下面就是用python实现的时候了,我们可以通过Crypto.PublicKey的RSA的construct方法实现。

# 错误版本
import binascii
from Crypto.PublicKey import RSA
cryptor = RSA.construct((0x00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7, 0x10001L))
text = cryptor.encrypt(msg, '')[0]
text = binascii.b2a_hex(text)  # byte流转为16进制

但是这时候问题出现了,上面的代码加密出来的结果和实际不符合,这样看来网易云的RSA加密和标准的有些不同,所以我们要深入到encryptedString这个方法进行调试。

function encryptedString(a, b) {
  for (var f, g, h, i, j, k, l, c = new Array, d = b.length, e = 0; d > e; )
    c[e] = b.charCodeAt(e),
    e++;
  for (; 0 != c.length % a.chunkSize; )
    c[e++] = 0;
  for (f = c.length,
  g = "",
  e = 0; f > e; e += a.chunkSize) {
    for (j = new BigInt,
    h = 0,
    i = e; i < e + a.chunkSize; ++h)  // here
      j.digits[h] = c[i++],
      j.digits[h] += c[i++] << 8;
    k = a.barrett.powMod(j, a.e),
    l = 16 == a.radix ? biToHex(k) : biToString(k, a.radix),
    g += l + " "
  }
  return g.substring(0, g.length - 1)
}

通过代码可以看出,c数组是b字符串转成的数组,然后在for循环中,c数组从左到右是从低位加到高位的,比如123456,1是加在低位,6是加在高位,这和平常有些不一样。
这样看来似乎需要把要加密的消息先翻转一下,然后再进行加密,测试之后发现也确实如此,实现如下:

import binascii
from Crypto.PublicKey import RSA

def rsa_encrypt(msg):
    cryptor = RSA.construct((0x00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7, 0x10001L))
    text = cryptor.encrypt(msg[::-1], '')[0]
    text = binascii.b2a_hex(text)
    return text

事实上,也可以自己来实现它的加密方式text=(msg^e)%n,只是自己实现的方式效率会比较低。

def rsa_encrypt2(msg):
    msg = binascii.b2a_hex(msg[::-1])
    msg = int(msg, 16)
    text = 1
    for _ in range(0x10001):
        text *= msg
        text %= 0x00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7
    return format(text, 'x')

在这里插入图片描述
最终实现

import base64
import binascii
import json
import random
import requests
from Crypto.Cipher import AES
from Crypto.PublicKey import RSA
from string import ascii_letters, digits
_charset = ascii_letters + digits

def rand_char(num=16):
    return ''.join(random.choice(_charset) for _ in range(num))

def aes_encrypt(msg, key, iv='0102030405060708'):
    def padded(msg):
        pad = 16 - len(msg) % 16
        return msg + pad * chr(pad)
    msg = padded(msg)
    cryptor = AES.new(key, IV=iv, mode=AES.MODE_CBC)
    text = cryptor.encrypt(msg)
    text = base64.b64encode(text)
    return text

def gen_params(d, i):
    text = aes_encrypt(d, '0CoJUm6Qyw8W8jud')
    text = aes_encrypt(text, i)
    return text

def rsa_encrypt(msg):
    cryptor = RSA.construct((0x00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7, 0x10001L))
    text = cryptor.encrypt(msg[::-1], '')[0]
    text = binascii.b2a_hex(text)
    return text

def encrypt(query):
    query = json.dumps(query)
    rand_i = rand_char(16)
    params = gen_params(query, rand_i)
    enc_sec_key = rsa_encrypt(rand_i)
    data = {
        'params': params,
        'encSecKey': enc_sec_key
    }
    return data

if __name__ == '__main__':
    music_id = '483671599'
    url = 'http://music.163.com/weapi/v1/resource/comments/R_SO_4_{}?csrf_token='.format(music_id)
    headers = {
        'Accept': '*/*',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,zh-TW;q=0.7',
        'Connection': 'keep-alive',
        'Content-Type': 'application/x-www-form-urlencoded',
        'Host': 'music.163.com',
        'Origin': 'http://music.163.com',
        'Referer': 'http://music.163.com/',
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
    }
    query = {
        'rid': 'R_SO_4_{}'.format(music_id),
        'offset': '0',
        'total': 'true',  # 第一页时为true,其他页为false
        'limit': '20',
        'csrf_token': ''
    }
    data = encrypt(query)
    r = requests.post(url, data=data, headers=headers)
    print(r.content)
    for item in r.json()['comments']:
        print(item['content'])

一个套路

通过代码我们可以看见encSecKey是由i决定的,但是这个参数是浏览器这边随机生成的,所以其实是可以写死的,这样一来encSecKey就成了一个固定值,只需要处理params这个参数,当然,会不会因为encSecKey总是不变而被封IP什么的我就不知道了

其它

由于RSA是非对称加密,我们无法通过encSecKey解密出i,没有i也就无法解密params,所以也就只能对每个接口进行断点调试,观察请求的构造,这里提供几个常用接口的参数

歌曲评论
url:http://music.163.com/weapi/v1/resource/comments/R_SO_4_483671599?csrf_token=
d: {“rid”:“R_SO_4_483671599”,“offset”:“20”,“total”:“false”,“limit”:“20”,“csrf_token”:""}

歌曲歌词
url:http://music.163.com/weapi/song/lyric?csrf_token=
d:{“id”:“483671599”,“lv”:-1,“tv”:-1,“csrf_token”:""}

歌单评论
url:http://music.163.com/weapi/v1/resource/comments/A_PL_0_2003824512?csrf_token=
d:{“rid”:“A_PL_0_2003824512”,“offset”:“0”,“total”:“true”,“limit”:“20”,“csrf_token”:""}

搜索
url:http://music.163.com/weapi/cloudsearch/get/web?csrf_token=

搜索单曲:{“hlpretag”:"<span class=“s-fc7”>",“hlposttag”:"",“s”:“爱”,“type”:“1”,“offset”:“0”,“total”:“true”,“limit”:“30”,“csrf_token”:""}

搜索歌手:{“hlpretag”:"<span class=“s-fc7”>",“hlposttag”:"",“s”:“爱”,“type”:“100”,“offset”:“0”,“total”:“true”,“limit”:“90”,“csrf_token”:""}

搜索专辑:{“hlpretag”:"<span class=“s-fc7”>",“hlposttag”:"",“s”:“爱”,“type”:“10”,“offset”:“0”,“total”:“true”,“limit”:“75”,“csrf_token”:""}

搜索MV:{“hlpretag”:"<span class=“s-fc7”>",“hlposttag”:"",“s”:“爱”,“type”:“1004”,“offset”:“0”,“total”:“true”,“limit”:“20”,“csrf_token”:""}

搜索歌词:{“hlpretag”:"<span class=“s-fc7”>",“hlposttag”:"",“s”:“爱”,“type”:“1006”,“offset”:“0”,“total”:“true”,“limit”:“30”,“csrf_token”:""}

搜索歌单:{“hlpretag”:"<span class=“s-fc7”>",“hlposttag”:"",“s”:“爱”,“type”:“1000”,“offset”:“0”,“total”:“true”,“limit”:“30”,“csrf_token”:""}

搜索主播电台:{“hlpretag”:"<span class=“s-fc7”>",“hlposttag”:"",“s”:“爱”,“type”:“1009”,“offset”:“0”,“total”:“true”,“limit”:“30”,“csrf_token”:""}

搜索用户:{“hlpretag”:"<span class=“s-fc7”>",“hlposttag”:"",“s”:“爱”,“type”:“1002”,“offset”:“0”,“total”:“true”,“limit”:“30”,“csrf_token”:""}

最后,膜拜这位大佬

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值